コース: 人工知能(AI)の基礎:機械学習
教師あり学習とは
教師あり学習では、判明している データ同士の結びつきを機械に 教えていきます。 さまざまな変数がどのように関係して 既知の結果に至るのかを示して 学習させます。 これらをラベル付きサンプルデータと 正解出力と呼びます。 ラベル付きデータには、 最初から識別情報が乗っています。 職場から家までの移動にかかる時間の 予測方法を機械に学習させる場合、 最初にすることは ラベル付きデータの作成です。 天候、時刻、休日かどうかといった データが含まれます。 これらが入力であり、出力はそれぞれの日に 職場から家まで実際にかかった 時間の長さです。 このケースでは、左側の入力が 独立変数であり、 右側の出力が従属変数であると 言い換えることもできます。 変数の関係性を、さまざまな機械学習の アルゴリズムを使ってマッピングします。 統計的な回帰分析により、 独立変数が従属変数にどう影響するかを 明らかにすることができます。 人間なら、雨天時の帰宅に 時間がかかることは直感で わかりますが、 機械の場合はデータと統計が頼りです。 帰宅にかかる時間を見て、天候を示す ラベル付きデータと比較します。 この課題で、教師あり学習のモデルが どのように構築されるかを 見ていきましょう。 最初にすることは、訓練データの作成です。 機械は訓練データを見て、 雨の量とかかる時間の間に 直接的な関係があることを認識します。 雨量が多いほど、 多くの時間がかかることです。 さらに、職場を出る時刻と所要時間の 間にも関係があると認識します。 午後5時に近いほど、 多くの時間がかかります。 このように、ラベル付きデータの関係性を 認識することが、 データモデルの第1歩です。 機械は、雨などの要素で時間が 変わることを学んだり、 時刻に応じて帰宅の道が混雑する といったことを学んだりしていきます。 続いて機械は、訓練データの傾向を テストデータに応用して見ることで、 訓練データに基づくモデルが もっと多くの日にも当てはまるかどうかを 確かめます。 それぞれの日の帰宅にかかる時間を 機械に予測させ、それがどれだけ 正確だったかをフィードバックすると、 機械は徐々に、モデルを適応させて 予測の精度を高めることを学びます。 訓練データから生まれたモデルは、 その後も新しいデータによって 継続的に調整されていきます。 これは、人間の学習も同様です。 車の運転を習う場合、 最初は教習所で指導員にやり方を 教わります。 所内の教習スペースで安全確実に 運転できるようになって、 大丈夫そうということになれば、 公道上で練習を始めます。 全部ではないにせよ、 路上に出るために必要なデータを 学んだからです。 そこからも多くのスキルを 学んでいくことで、徐々に腕を磨いて 運転のエキスパートになっていくわけです。 教師あり学習の最大の特徴は、 人間の方が訓練データについて よくわかっていて、 分類が簡単なラベル付きデータを 機械に読ませることです。 帰宅時間と天候などの要素も、 教師の方が理解しています。 教師あり学習では、 ラベル付きデータを使うという点が、 ほかの機械学習にない最大の特徴です。
エクササイズファイルを使って実践してみましょう。
インストラクターがコースで使用しているファイルはダウンロードできます。見て、聞いて、練習することで、理解度を深めることができます。