ML実験トラッキングとモデル管理
Copy for LLM
Copy page as Markdown for LLMs
View as Markdown
Open this page as Markdown
Open in ChatGPT
Get insights from ChatGPT
Open in Claude
Get insights from Claude
Cursorに接続
CursorにMCPサーバーをインストール
VS Codeに接続
VS CodeにMCPサーバーをインストール

ML実験トラッキングは、機械学習実験の結果を整理、記録、分析するプロセスです。このドキュメントでは、ML実験トラッキングを可能にするワークフローの作成方法について説明します。

完全なML実験トラッキングワークフローのコードは、Treasure Boxesで確認できます。

ML実験のトラッキング
各モデルの評価結果の記録
時系列でのモデルパフォーマンスのドリフト検出

ML実験のトラッキング

ベストプラクティスとして、エンドツーエンドのデータ処理ワークフローの一部として、トレーニングタスクに続いて「track_experiment」タスクを使用して、各ML実験をトラッキングする必要があります。_track_experiment_タスクは、ML実験情報とモデル名を「automl_experiments」という名前のTDテーブルに記録するSQLクエリを発行します。サンプルワークフローコードは以下の通りです：

+create_db_tbl_if_not_exists:
  td_ddl>: null
  create_databases:
    - '${ output_database}'
  create_tables:
    - automl_experiments
    - automl_eval_results
+train:
  ml_train>:
    docker:
      task_mem: 128g
    notebook: gluon_train
    model_name: 'gluon_model_${session_id}'
    input_table: '${input_database}.${train_data_table}'
    target_column: '${target_column}'
    time_limit: '${fit_time_limit}'
    share_model: true
    export_leaderboard: '${output_database}.leaderboard_${train_data_table}'
    export_feature_importance: '${output_database}.feature_importance_${train_data_table}'
+track_experiment:
  td>: queries/track_experiment.sql
  insert_into: '${output_database}.automl_experiments'
  last_executed_notebook: '${automl.last_executed_notebook}'
  user_id: '${automl.last_executed_user_id}'
  user_email: '${automl.last_executed_user_email}'
  model_name: 'gluon_model_${session_id}'
  shared_model: '${automl.shared_model}'
  task_attempt_id: '${attempt_id}'
  session_time: '${session_local_time}'
  engine: presto

上記のワークフローコードは、_automl_experiments_テーブルに以下のようなコンテンツを生成します：

task_attempt_id	session_time	user_id	user_email	model_name	shared_model	notebook_url
849779333	2023-05-18 7:19:18	7776	xxx@treasure-data.com	gluon_model_161722236	b4a568da-e6f3-4057-b694-e2e19bf0e924	https://console.treasuredata.com/app/workflows/automl/notebook/4a3c431b3aea4705b32a47d85ca46368
849772621	2023-05-18 7:08:30	7776	xxx@treasure-data.com	gluon_model_161721046	94ad5d0e-89ac-4836-99c4-2bc8f975ccbe	https://console.treasuredata.com/app/workflows/automl/notebook/b390b932d4a64fd3a2dc3b75503430fb
849768123	2023-05-18 7:01:13	7777	yyy@treasure-data.com	gluon_model_161720337	4f2351a3-dd8c-418e-8057-4c8ec9a90cbe	https://console.treasuredata.com/app/workflows/automl/notebook/e8b3319c982345a48ff74db0003d7c9c
849760942	2023-05-18 6:49:50	7776	xxx@treasure-data.com	gluon_model_161718676	93e68b09-1a2f-4049-bb89-2bfe596ca9b3	https://console.treasuredata.com/app/workflows/automl/notebook/b02959b1469e4b9c86ec6c6809acc5ff
849753199	2023-05-18 6:36:36	7776	xxx@treasure-data.com	gluon_model_161717236	a7e456d3-8fcf-4173-afb7-f2d58bb985cd	https://console.treasuredata.com/app/workflows/automl/notebook/d3dcbbab99774bd594106a496ec2b2ab

テーブルの各レコードには、モデル名、モデルを作成したユーザーの詳細、モデルが作成されたセッション時刻、および生成されたノートブックへのリンクが含まれます。

各モデルの評価結果の記録

オプションで、評価データセットを使用して各モデルの品質を記録できます。次のワークフローは、分類問題の標準的な評価指標であるAUROCを使用してモデル品質を記録する例です。record_evaluationタスクは、automl_eval_resultsテーブルに評価結果を記録します。

+predict:
  ml_predict>:
    docker:
      task_mem: 64g
    notebook: gluon_predict
    model_name: 'gluon_model_${session_id}'
    input_table: '${input_database}.${test_data_table}'
    output_table: '${output_database}.predicted_${test_data_table}_${session_id}'
+evaluation:
  td>: queries/auc.sql
  table: '${output_database}.predicted_${test_data_table}_${session_id}'
  target_column: '${target_column}'
  positive_class: ' >50K'
  store_last_results: true
  engine: hive
+record_evaluation:
  td>: queries/record_evaluation.sql
  insert_into: '${output_database}.automl_eval_results'
  engine: presto
  model_name: 'gluon_model_${session_id}'
  test_table: '${input_database}.${test_data_table}'
  session_time: '${session_local_time}'
  auc: '${td.last_results.auc}'

Treasure DataのHive実行エンジンは、多数の評価指標をサポートするHivemallをサポートしています。詳細については、Hivemallドキュメントを参照してください。

「automl_eval_results」テーブルのコンテンツ例：

session_time	model_name	ml_datasets.gluon_test	auroc
2023-06-06 6:21:40	gluon_model_164947310	ml_datasets.gluon_test	0.9226243033
2023-06-14 6:49:22	gluon_model_166350110	ml_datasets.gluon_test	0.9299335758
2023-06-15 7:35:30	gluon_model_166532223	ml_datasets.gluon_test	0.9300292252
2023-05-18 7:19:18	gluon_model_161722236	ml_datasets.gluon_test	0.9238149699

時系列でのモデルパフォーマンスのドリフト検出

「ドリフト」は、機械学習において、機械学習モデルのパフォーマンスが時間の経過とともにゆっくりと悪化または陳腐化することを表す用語です。ドリフトには主に2つのタイプがあります：データドリフトとコンセプトドリフトです。データドリフトとコンセプトドリフトの両方が、機械学習モデルのパフォーマンス低下につながる可能性があります。

次のワークフロータスクを使用することで、各モデルの精度と品質を記録し、データとモデルパフォーマンスのドリフトを検出できます。スケジュールされたワークフロージョブを使用して、モデルパフォーマンスを追跡し、モデルパフォーマンスがドリフトした場合に警告を発することができます。

ドリフト検出にはいくつかのスキームがあります。次のワークフロー例は、評価指標を使用してMLモデルパフォーマンスの劣化を特定する方法を示しています。ドリフトが検出されると、次のようにアラートメールをトリガーできます：

# timezone: PST
# schedule:
#  daily>: 07:00:00
+evaluation:
  td>: queries/auc.sql
  table: '${output_database}.predicted_${test_data_table}_${session_id}'
  target_column: '${target_column}'
  positive_class: ' >50K'
  store_last_results: true
  engine: hive
+alert_if_drift_detected:
  if>: '${td.last_results.auc < 0.93}'
  _do: null
mail>: null
data: 'Detect drift in model performance. AUC was ${td.last_results.auc}.'
subject: Drift detected
to:
  - me@example.com
bcc:
  - foo@example.com
  - bar@example.com

ドリフト検出のためにワークフロー実行をスケジュールできます。また、ドリフトが検出された場合、条件演算子を使用してアラートメールを送信したり、モデルを再構築したりできます。

ML実験のトラッキング

各モデルの評価結果の記録

時系列でのモデルパフォーマンスのドリフト検出

Was this helpful?