AutoML(自動機械学習)は、エンドツーエンドのMLプロセスの一部を自動化し、ML専門家以外にも利用範囲を広げ、高品質なモデルの提供を加速します。
AutoMLは以下の主要なサブタスクを自動化します:
- データの前処理とクリーニング
- 探索的データ分析(EDA)
- 特徴量エンジニアリング
- モデルの選択とトレーニング
- モデル評価
次の図は、これらのサブタスクを示しています(緑色の点線ボックス): 
Treasure Data(TD)は、使い慣れたTreasure Workflow環境内で設定可能な機能としてAutoMLを提供しています。AutoMLプロセスを設定・実行するための複数のワークフローオペレーターが提供されています。これにより、ワークフロー管理、権限管理、スケジューリング、実行、通知、ログなどの面で使い慣れたWorkflow環境を利用できます。
実行されると、各AutoMLオペレーターは分離された実行環境を作成し、特定のPythonノートブックを実行して、結果のモデルやデータベーステーブルを出力します。ノートブックはTreasure Dataによって準備および管理されています。
各AutoMLタスクは隔離された環境で実行されるため、クラウド実行環境の基盤リソースを活用しながら、他のタスクによる中断なく安全かつ効率的にプロセスを完了できます。TDでは、各顧客の速度とデータサイズの要件に応じて、より多くのキャパシティとリソースを使用できるように、クラスターリソースをプロビジョニングするための複数のパッケージを提供しています。
ワークフロー実行の完了後、ワークフロー環境は対応するログファイルとノートブックにリンクされ、ユーザーが実行結果の分析と検証を進められるようにします。このように、AutoMLフレームワークは透明性と可視性を提供し、技術ユーザー(データサイエンティストやMLエンジニア)がAutoMLモデルとその出力の技術的な詳細を検査できるようにします。
- 既存のクリーンで統一された充実したデータに直接アクセスできる、安全なTreasure Data環境内で実行されます。
- 既存のTreasure Dataコンポーネントと直接統合されます。すべてのデータ処理は、外部ツールや処理を必要とせずに環境内で実行できます。
- AutoMLライブラリに含まれる様々なアルゴリズムの設定と最適化を簡素化することで、チームがMLモデルを迅速に構築、トレーニング、デプロイできるようにし、データ駆動型の意思決定を可能にします。
- MLモデルの作成時間を短縮することで、技術ユーザーがビジネス価値の創出により集中できるようにします。
- 強力なMLモデルを構築・使用するための技術チームや外部ベンダーへの依存を削減または回避します。
- 専用の実行環境により、より複雑な機械学習タスクをサポートするための高容量パフォーマンスソリューションへのアクセスを提供します。