AWS認定 MLSで覚える機械学習の用語を1行で説明(25単語)

AWS Certified Machine Learning - Specialty (MLS-C01)に合格しました。
私が機械学習初心者で専門用語を覚えるのが大変だったので、必要最低限の専門用語をまとめました。
試験は「2024/03/02」に受けたのですが、機械学習の専門用語としては本ブログに記載した内容を覚えれば合格できました。
点数は795点と高いわけではないですが。。

単語説明概要

単語説明の青字箇所をキーワードとして覚えば大丈夫です。
同じキーワードがいくつかあるので、その場合は「教師あり」or「教師なし」の違いなどを覚える必要もあります。

重要単語レベル:★★★

正則化過学習を防ぐ手法。訓練データに過剰に適合しないため一般化する。
ドロップアウト過学習を防ぐ手法。(正則化とセットで出題される)
・主成分分析:特徴を削減。(特徴を少ない次元の空間に変換)

・線形学習:分類や回帰ができる。例)分類:画像分類、回帰:数値予測
・線形分類:数値を予測。例)売上、気温、生産数の予測
・ロジステック回帰(分類):0 or 1を定義する不正検出アルゴリズム
             名前に「回帰」があるが「分類」問題を解決する。

協調フィルタリングレコメンデーションに最適。レコメンドの一般的アルゴリズム
・LDA:文書のトピックを検出。例)テキストの自動トピック識別、内容要約
ベイズ検索:最適なハイパーパラメータを調整する手法。
・ランタイムカットフォレスト:異常なデータポイントを検出するアルゴリズム
・XGBoost:複数のモデルを学習させ、1つにまとめて予測する。
      F1不正行為の分類も合わせて覚える

・畳み込みニューラルネットワーク(CNN):画像認識モデル。例)物体、顔、画像分類
再帰ニューラルネットワーク(RNN):時系列データのモデル。例)店の日次売上

・K-means:データをK個に類似性でグループ分け。外れ値検索。例)文書のグループ分け
・K-近傍法(K-NN):類似のデータポイントをK個見つける。

重要単語レベル:★★

・Bag-of-Words(BoW):各単語の出現回数を示すアルゴリズム
・Term Frequency – Inverse Document Frequency(TF-IDF):単語の重要度を測る指標。
・Object2Vec:類似している単語、画像、ビデオを検索。CNNベースモデル

・One-Hotエンコーディング:文字列の値を数値に変換。例)赤(1, 0, 0) 青(0, 1, 0)

重要単語レベル:★

・適合率:陽性と判断されたデータがどれだけ正しく分類できたか。
・特異率:陰性のデータの中でどれだけ陰性と分類できたか。
・リコール:正のクラスを正しく識別できた割合。例)病気の診断不正取引の検出

因数分解機:クリック予測項目推奨
ROC曲線下の面積(AVC):機械学習の分類モデルをや相互に比較/評価する。
・データのビニング:モデルの過学習を防ぐ

基礎

学習パターン

学習名 説明 利用ケース
強化学習(報酬獲得) 環境からのフィードバックから最適な行動を学習 動的な環境での意思決定、ゲーム
教師あり(ラベルあり) データラベルからパターンを学習して予測する 分類、回帰問題
教師なし(ラベルなし) ラベルなしのデータからパターンを探索する クラスタリング、異常検出


教師あり、なしで分ける

教師あり 教師なし
線形学習 主成分分析(PCA)
線形分類 ランタイムカットフォレスト(RCF)
ロジステック回帰 K-means
XGBoost
因数分解
K-近傍法

教師なしの3つを覚える

参考書

この本を読んで学習しました。
とても分かりやすい本ですが、半分ぐらいしか理解できずMLS合格のために最低限覚える用語をまとめました。 www.amazon.co.jp

[参考サイト]
私が見た中では一番分かりやすいのでお勧めです。 zenn.dev