ML のしくみ
4 所要時間
4 所要時間
このページでご覧いただけるもの
機械学習は、人工知能 (AI) のサブセットであり、過去のデータとパターンを活用し、人間の関与を最小限に抑えて論理的な決定を下し、正確な予測を行う能力を備えたシステムの作成と進化に重点を置いています。
1950年代、AIのパイオニアであるアーサー・サミュエルは、MLを「明示的にプログラムされることなくコンピューターに学習する能力を与える研究分野」と定義しました。
MLモデルによって制御および駆動される機械学習アルゴリズムは、データ(つまり、サンプル)の量が増えるにつれて適応的に改善するように設計されています。しかし、根底にあるMLバイアス(AIバイアスとも呼ばれます)の存在は誤った予測につながり、それが欠陥のある有害な決定を支持してきました。
現在、すべての企業の3分の2が製品やサービスを推奨するために使用しています専門家は、テクノロジーが進歩し続けるにつれて、ML世界のすべての産業がすでに変化したか、まもなく変化すると述べています。
データを使用して推論、行動、適応、結論を出すことで、機械やシステムが人間の脳のように考えることを可能にしますが、MLは、機械やシステムが生データをビジネスインテリジェンス(知識)に変換し、自律的な方法でそこから学習できるようにするAIのアプリケーションです。機械学習は、何をすべきかを知るためにAIを訓練します。
基本的に、MLはシステムがインテリジェンスを開発できるようにするエンジンです。機械学習はAIではなく、AIへの経路です。
ディープ ラーニングは、ML のサブセット (または特殊な形式) です。アルゴリズムの層を使用して、自律的に学習して決定を下すことができる人工ニューラルネットワークを構築します。
システムが疑わしい予測や不正確な予測を生成し始めた場合は、データサイエンティストが関与して調整を行う必要があります。ただし、深層学習モデルのアルゴリズムには、予測が不正確かどうかを独自に判断する能力があり、人間の介入なしに修正を行うことができます。
MLのもう一つの分野は自然言語処理であり、機械やシステムが人間の書き方や話し方を正しく認識し、理解し、応答できるようにすることに焦点を当てています - テクノロジーの世界では、プログラマーが従来使用していた数やデータに依存するよりもはるかに多様で動的です。
AppleのSiriやAmazonのAlexaなどのチャットボットは、自然言語処理を活用して人々の発言を理解し、新しいテキストを作成し、言語翻訳を実行するMLの例です。
ここまで、ML の基本的な定義について説明し、ML と密接に関連するテクノロジや手法の主な違いをいくつか強調してきました。この基盤が整ったら、MLしくみに注意を向けることができます。
一般に、AIをトレーニングするMLモデルを構築するための 6 つの主要な手順があります。
ML 手法には 4 つのタイプがあり、情報の分類、パターン認識、結果の予測、信頼性の高い意思決定など、モデルのコア機能を形成および管理します。
教師あり学習
教師ありMLは、アルゴリズムがラベル付けされたデータから継続的に学習する学習プロセスであり、時間の経過とともによりスマートで正確になります。ラベルは、オーガニック(つまり、データ自体で利用可能)にすることも、外部から追加することもできます。教師あり学習アルゴリズムの例としては、決定木、サポート ベクター マシン、ランダム フォレスト、単純ベイズなどがあります。
教師あり学習アルゴリズムは、画像認識や音声認識、レコメンデーションシステム、不正検出などのアプリケーションに使用されています。
教師あり学習は、関連するデータにアクセスすることで、MLモデルの中核的な目的である正確で適用可能な予測を生成できます。ただし、教師あり学習では、データにラベルを付けるために大量のドメイン知識と人間の努力が必要です。
教師なし学習
教師なしMLは、モデルがラベル付けされていないデータを分析して隠れたパターンや傾向を見つけ、類似性または異常に基づいてデータポイントをクラスターにグループ化する学習方法です。たとえば、一部の小売業者は、教師なし学習を活用して、特定のタイプの顧客がいつセールスファネルを離れる可能性が高いかを予測しています。このインサイトは、マーケティングキャンペーンやメッセージングを調整し、ターゲットを絞るために利用されます。
K-meansクラスタリングは、利用可能な情報がほとんどない場合でも、データポイントをグループに分割する最速の教師なしMLアルゴリズムです。
ただし、教師なし学習は自律的であり、人間の介入を伴わないため、トレーニング中に事前に定義された回答がないと、精度と信頼性測定指標が困難になる可能性があります。
半教師あり学習
教師あり学習と教師なし学習の間には、半教師あり学習という適切な名前が付けられています。このアプローチでは、最初に少数のラベル付きサンプルを使用してモデルをトレーニングし、その後、ラベル付けされていない大量のデータに繰り返し適用します (このプロセスは疑似ラベル付けと呼ばれます)。最終的に、モデルは、ラベル付けされたデータと反復的にラベル付けされたデータの組み合わせを使用してトレーニングされます。
半教師あり学習の主な利点の1つは、教師あり学習と比較して、データ準備に必要な時間とコストが大幅に低いことです。さらに、教師なし学習とは異なり、半教師あり学習は幅広い問題(分類、回帰、クラスタリング、関連付けなど)に適用できます。ただし、主な欠点は、反復プロセスが非常に複雑であるため、より複雑な問題にはあまり適していないことです。
強化学習
強化学習では、試行錯誤のアプローチを使用して、時間の経過とともにどの行動と決定が最も好ましいかを学習します。強化学習の中核となるのは、モデルが正しい決定を下したとき(そして報酬を獲得したとき)または誤った決定を下したとき(そしてペナルティを受けたとき)をモデルに伝える報酬システムエンジンです。
強化学習は、複雑な問題を解決するのに非常に効果的です。モデルが間違いや経験から学習すると、報酬と罰のエンジンはエラーを繰り返す可能性を減らします。しかし、強化学習は大量のデータを必要とし、メンテナンスコストが高くなる可能性があります。
過度の強化学習は、状態の過負荷にリードすることもでき、結果の信頼性が低下します。状態とは、エージェント(すなわち、センサーを介して知覚し、アクチュエーターまたはエフェクターを介して行動するエンティティまたは独立したプログラム)が環境から受け取る観測値です。
世界のML市場は、2030年までに2,259億1,000万ドルに成長すると予測されており、すでにさまざまな業界を変革し、進歩させています。以下は、MLの実例と応用例です。
これらは、ML の既存のユース ケースのサンプルにすぎません。また、クラウドデータエコシステムの成長や、< rel="noopener noreferrer" href="https://www.nature.com/articles/s41598-022-20375-5" target="_blank"の使用の可能性など、多くのエキサイティングなML開発が予定されています>ビッグデータのアルゴリズムを最適化するための量子コンピューティング。
世界がAIについて(そして多くの正当な理由で)話題になっている一方で、舞台裏で、スポットライトから離れていますが、MLは、膨大な量のデータを、重要な問題を解決し、価値のある目標を達成する信頼できる洞察に変換するための新しいデータサイエンスイニシアチブで毎日使用されています。 エンハンスメントから教育を改善し、命を救う。
MLの詳細については、サイトコア Knowledge Center を参照してください。