ML のしくみ

現在、全企業の3分の2が製品やサービスを推奨するために使用しているMLは、世界中のあらゆる業界にすでに変化しているか、まもなく変化する予定です。その仕組みを学びましょう。

4 所要時間

An Artificial Intelligence brain with circuit board is on learning process. Futuristic design concept. Abstract digital and technology background. Vector Illustration.

ML とは

機械学習は、人工知能 (AI) のサブセットであり、過去のデータとパターンを活用し、人間の関与を最小限に抑えて論理的な決定を下し、正確な予測を行う能力を備えたシステムの作成と進化に重点を置いています。

1950年代、AIのパイオニアであるアーサー・サミュエルは、MLを「明示的にプログラムされることなくコンピューターに学習する能力を与える研究分野」と定義しました。

MLモデルによって制御および駆動される機械学習アルゴリズムは、データ(つまり、サンプル)の量が増えるにつれて適応的に改善するように設計されています。しかし、根底にあるMLバイアス(AIバイアスとも呼ばれます)の存在は誤った予測につながり、それが欠陥のある有害な決定を支持してきました。

現在、すべての企業の3分の2が製品やサービスを推奨するために使用しています専門家は、テクノロジーが進歩し続けるにつれて、ML世界のすべての産業がすでに変化したか、まもなく変化すると述べています。

機械学習とAI

AIは、

データを使用して推論、行動、適応、結論を出すことで、機械やシステムが人間の脳のように考えることを可能にしますが、MLは、機械やシステムが生データをビジネスインテリジェンス(知識)に変換し、自律的な方法でそこから学習できるようにするAIのアプリケーションです。機械学習は、何をすべきかを知るためにAIを訓練します。

基本的に、MLはシステムがインテリジェンスを開発できるようにするエンジンです。機械学習はAIではなく、AIへの経路です。

機械学習とディープラーニング

ディープ ラーニングは、ML のサブセット (または特殊な形式) です。アルゴリズムの層を使用して、自律的に学習して決定を下すことができる人工ニューラルネットワークを構築します。

システムが疑わしい予測や不正確な予測を生成し始めた場合は、データサイエンティストが関与して調整を行う必要があります。ただし、深層学習モデルのアルゴリズムには、予測が不正確かどうかを独自に判断する能力があり、人間の介入なしに修正を行うことができます。

機械学習と自然言語処理

MLのもう一つの分野は自然言語処理であり、機械やシステムが人間の書き方や話し方を正しく認識し、理解し、応答できるようにすることに焦点を当てています - テクノロジーの世界では、プログラマーが従来使用していた数やデータに依存するよりもはるかに多様で動的です。

AppleのSiriやAmazonのAlexaなどのチャットボットは、自然言語処理を活用して人々の発言を理解し、新しいテキストを作成し、言語翻訳を実行するMLの例です。

ML のしくみ

ここまで、ML の基本的な定義について説明し、ML と密接に関連するテクノロジや手法の主な違いをいくつか強調してきました。この基盤が整ったら、MLしくみに注意を向けることができます

一般に、AIをトレーニングするMLモデルを構築するための 6 つの主要な手順があります

  1. ビジネスの問題を分析して明確にし、成功とはどのようなものかを定義します。
     
    モデルの目標がML要件(精度、精度など)だけでなく、ビジネス要件を対象としていることを確認することが非常に重要です。このモデルの基本的な目的は、重要な的、実用的、関連する ビジネス的な目的を解決することです (つまり、旅行体験を向上させ、< rel="noopener noreferrer" href="https://www.forbes.com/sites/forbestechcouncil/2020/07/10/can-ai-improve-your-job-search-it-already-has/?sh=46387b243527"target="_blank">人々が仕事を見つけるのをより簡単かつ迅速に行うか、ビジネスプロセス大規模な自動化を有効にします.
     
  2. データ要件を特定し、ML モデルを構築するのに十分なデータが使用可能かどうかを判断します。
     
    ここでは、GIGO(ガベージイン、ガベージアウト)の頭字語が適用されます。十分な量の適切なデータにアクセスできないと、MLモデルは本質的に正確で信頼性の高い予測を生成できません。データ量とデータ品質の両方を確保することで、モデルはAIをトレーニングするという目的を果たすことができます。
     
  3. データの収集と準備
     
    次に、収集、クリーニング、集計、拡張、ラベリング、正規化、変換など、構造化データ準備アクティビティ(収益数など)、非構造化データ(顧客調査など)、半構造化データ準備アクティビティ(電子メールなど)など、さまざまなアクティビティがあります。
     
    ここに質の高い時間、労力、リソースを投資する必要があります。実際、他の点ではエレガントで印象的なMLモデルの多くは、データ準備プロセスのギャップによって損なわれています。
     
  4. モデルをトレーニングする
     
    トレーニング データは、ML モデルのトレーニングに使用されるデータセットであり、これによりアルゴリズムに意思決定の方法が教えられます。
     
  5. パフォーマンスの評価と測定指標
     
    プロセスのこのステップは、次のようなタスクを含む品質保証作業と考えてください。
    • モデル測定基準の評価: ML モデルのパフォーマンスと有効性を評価するための定量的尺度。
    • 混同行列の計算: 分類アルゴリズムの性能を要約する手法。
    • モデルのパフォーマンス指標:回帰タスクに関連する指標(平均二乗誤差、二乗平均平方根誤差、R二乗など)、分類タスクに関連する指標(精度、精度と再現率、F1スコア、AU-R(MSE)、二乗平均平方根誤差(RMSE)、R²(R-Squared)など)。対照的に、分類タスクでは、精度、混同行列、適合率と再現率、F1 スコア、AUC-ROC 曲線などのメトリックが使用されます。
    • モデル品質測定: これらは、ML モデルがターゲット母集団の目に見えないデータにどの程度一般化されるかをベンチマークします。

  6. モデルの運用化と反復処理
     
    MLモデルの運用化は、比較的単純なプロセス(レポートの生成など)またはより複雑な作業(マルチエンドポイントのデプロイなど)にすることができます。ただし、モデルがすべてのシリンダーで発火している場合でも、時間の経過とともに最適化が維持されるという保証はなく、期待もできません。

アルゴリズム手法の種類

ML 手法には 4 つのタイプがあり、情報の分類、パターン認識、結果の予測、信頼性の高い意思決定など、モデルのコア機能を形成および管理します。

教師あり学習
教師ありMLは、アルゴリズムがラベル付けされたデータから継続的に学習する学習プロセスであり、時間の経過とともによりスマートで正確になります。ラベルは、オーガニック(つまり、データ自体で利用可能)にすることも、外部から追加することもできます。教師あり学習アルゴリズムの例としては、決定木、サポート ベクター マシン、ランダム フォレスト、単純ベイズなどがあります。

教師あり学習アルゴリズムは、画像認識や音声認識、レコメンデーションシステム、不正検出などのアプリケーションに使用されています。

教師あり学習は、関連するデータにアクセスすることで、MLモデルの中核的な目的である正確で適用可能な予測を生成できます。ただし、教師あり学習では、データにラベルを付けるために大量のドメイン知識と人間の努力が必要です。

教師なし学習
教師なしMLは、モデルがラベル付けされていないデータを分析して隠れたパターンや傾向を見つけ、類似性または異常に基づいてデータポイントをクラスターにグループ化する学習方法です。たとえば、一部の小売業者は、教師なし学習を活用して、特定のタイプの顧客がいつセールスファネルを離れる可能性が高いかを予測しています。このインサイトは、マーケティングキャンペーンやメッセージングを調整し、ターゲットを絞るために利用されます。

K-meansクラスタリングは、利用可能な情報がほとんどない場合でも、データポイントをグループに分割する最速の教師なしMLアルゴリズムです。

ただし、教師なし学習は自律的であり、人間の介入を伴わないため、トレーニング中に事前に定義された回答がないと、精度と信頼性測定指標が困難になる可能性があります。

半教師あり学習
教師あり学習と教師なし学習の間には、半教師あり学習という適切な名前が付けられています。このアプローチでは、最初に少数のラベル付きサンプルを使用してモデルをトレーニングし、その後、ラベル付けされていない大量のデータに繰り返し適用します (このプロセスは疑似ラベル付けと呼ばれます)。最終的に、モデルは、ラベル付けされたデータと反復的にラベル付けされたデータの組み合わせを使用してトレーニングされます。

半教師あり学習の主な利点の1つは、教師あり学習と比較して、データ準備に必要な時間とコストが大幅に低いことです。さらに、教師なし学習とは異なり、半教師あり学習は幅広い問題(分類、回帰、クラスタリング、関連付けなど)に適用できます。ただし、主な欠点は、反復プロセスが非常に複雑であるため、より複雑な問題にはあまり適していないことです。

強化学習
強化学習では、試行錯誤のアプローチを使用して、時間の経過とともにどの行動と決定が最も好ましいかを学習します。強化学習の中核となるのは、モデルが正しい決定を下したとき(そして報酬を獲得したとき)または誤った決定を下したとき(そしてペナルティを受けたとき)をモデルに伝える報酬システムエンジンです。

強化学習は、複雑な問題を解決するのに非常に効果的です。モデルが間違いや経験から学習すると、報酬と罰のエンジンはエラーを繰り返す可能性を減らします。しかし、強化学習は大量のデータを必要とし、メンテナンスコストが高くなる可能性があります。

過度の強化学習は、状態の過負荷にリードすることもでき、結果の信頼性が低下します。状態とは、エージェント(すなわち、センサーを介して知覚し、アクチュエーターまたはエフェクターを介して行動するエンティティまたは独立したプログラム)が環境から受け取る観測値です。

ML アプリケーションの例

世界のML市場は、2030年までに2,259億1,000万ドルに成長すると予測されており、すでにさまざまな業界を変革し、進歩させています。以下は、MLの実例と応用例です。

  • 金融:機械学習を使用して、リアルタイムで不正を検出し、取引タスクを自動化し、クライアント固有のポートフォリオの詳細とリスクプロファイルに基づいて自動化された財務アドバイスを提供する「ロボアドバイザー」を可能にします。
  • ビジネス:企業はMLを使用して、カスタマーエンゲージメントを高め、売上を伸ばし、サービスを強化するチャットボットやアプリを設計します。組織はまた、MLを使用して、採用やリソース割り当てなどの分野でデータ主導の意思決定を行います。
  • 保険:機械学習は、引受プロセスの合理化、顧客のオンボーディングの迅速化、運用コストの削減に使用されています。
  • 遺伝学とゲノミクス:機械学習は、血友病や糖尿病などの疾患に寄与する遺伝形質など、さまざまな遺伝形質をよりよく理解するために、遺伝学とゲノミクス調査内のデータ分析に使用されています。
  • ヘルスケア:機械学習は、病院や医療ネットワークが管理プロセスとワークフローを合理化するのに役立っており、画像認識により、病理医はより迅速でより良い診断を下すことが可能になっています。
  • 小売業:機械学習は、小売業者が膨大な量の構造化、非構造化、半構造化顧客データ(オーガニックソーシャルメディアコミュニケーションから購入取引履歴まで)を特定する、整理、分析、活用して、売上、利益、ブランド認知度を向上させ、カスタマーエンゲージメント。
  • 教育:機械学習は、学生のスキルレベルを評価し、習熟度を高めるのに役立つガイド付きの教育エクスペリエンスとカリキュラムを開発するために使用されています。
  • エンターテインメント:機械学習は、ストリーミングサービス(Netflix、Amazon Prime Video、Disney+、Huluなど)のレコメンデーションエンジン内で使用され、過去の視聴選択に基づいて関連するコンテンツや、特定の好みや特性を共有する他の個人がアクセスしているコンテンツをサブスクライバーに提供しています。
  • 自律走行車:機械学習は、高度なロボット工学と自動運転車の開発に使用されています。自律走行車は、コンピュータービジョン(AIの一種)、ML、センサーからのリアルタイムデータを活用して、ナビゲーションと意思決定を支援し、乗客の安全を確保します。

これらは、ML の既存のユース ケースのサンプルにすぎません。また、クラウドデータエコシステムの成長や、< rel="noopener noreferrer" href="https://www.nature.com/articles/s41598-022-20375-5" target="_blank"の使用の可能性など、多くのエキサイティングなML開発が予定されています>ビッグデータのアルゴリズムを最適化するための量子コンピューティング。

最後の言葉

世界がAIについて(そして多くの正当な理由で)話題になっている一方で、舞台裏で、スポットライトから離れていますが、MLは、膨大な量のデータを、重要な問題を解決し、価値のある目標を達成する信頼できる洞察に変換するための新しいデータサイエンスイニシアチブで毎日使用されています。 エンハンスメントから教育を改善し命を救う。

MLの詳細については、サイトコア Knowledge Center を参照してください。