Skip to content
Last updated

AutoML FAQ

製品FAQ

  • 他の製品と比較して、TD AutoMLを使用するメリットは何ですか?
    Treasure Dataとのシームレスな統合が、TD AutoMLを使用する最大のメリットです。AutoMLは、機械学習モデルの構築とサービス提供にかかる時間を大幅に削減し、ユーザーは技術的なタスクよりもビジネス価値の創出に集中できます。

  • AutoMLを使用するために必要なスキルは何ですか?マーケターでも使用できますか?
    TD Consoleは、技術者以外のユーザーでもAutoMLを実行できるUIを提供しています。AutoMLサービスを使用するために期待されるスキルセットは、「マーケティングアナリスト」または「データアナリスト」のスキルセットです。データ品質の基本原則、ビジネス目標の設定、トレーニングデータセットを使用したモデルのトレーニングに関するスキルが必要です。要件に一致するデータテーブルで基本的なAutoMLソリューションを使用する場合、トレーニングする目標値の列を指定し、他のパラメータにはデフォルト値を使用することでモデルをトレーニングできます。より複雑なエンドツーエンドのデータ処理では、通常「データエンジニア」または「データサイエンティスト」がワークフローを設定し、モデルのトレーニングを評価します。トレーニング済みモデルは、他のユーザーと共有でき、ワークフローをスケジュールしてさらに予測を実行できます。

  • AutoML機能を使用できるようにするためのトレーニングプログラムはありますか?
    トレーニングプログラムは将来のリリースに向けて開発中です。

  • AutoMLのユニットアワーとは何ですか?ユーザーは消費されたユニットアワーをどのように監視できますか?
    サービスが使用された時間(時間単位)です。タスクタイプに基づいて、消費されるユニットアワーは異なり、より高いタスクタイプはより多くを消費します。Treasure Dataは、消費されたユニットアワーの使用状況ダッシュボードを提供します。毎日更新され、その日の全体的なユニットアワー使用量が表示されます。ワークフローログ(TD Consoleから表示可能)には、個々のAutoMLタスクのユニットアワー消費量が表示されます。詳細については、AutoML使用状況の監視を参照してください。

  • AutoMLは常に正しい結果を提供しますか?
    機械学習の基本原則、結果の精度、データ品質、および結果がビジネス目標にどのようにマッピングされるかについての理解に多少の知識があることで、データサイエンティスト以外のユーザーも結果を解釈し、AutoMLを最大限に活用できます。

  • データが十分な品質であることをどのように確認できますか?
    ノートブックの組み込みツールを使用してください。たとえば、EDA Notebookは、AutoGluonを使用してモデルを作成する前にデータソースを分析するためのツールを提供します。

  • データサイエンティストとして、デプロイメントを高速化するためにAutoMLを使用して迅速な反復を行うにはどうすればよいですか? 組み込みのトレーニングオペレーター(AutoGluon)を使用して、反復的なトレーニング実行を実行し、異なるデータセットと期間を使用し、結果として得られる精度スコアと出力を比較できます。最適なモデルを作成した後、スケジュールされた予測タスクに使用します。

  • AutoMLを使用して独自のカスタムJupyter notebookを実行できますか? サポートされていません。Treasure Dataでは、Data Workbenchからカスタムスクリプトを実行できますが、これはAutoML専用コンテナの外部です。

  • 生成されたノートブックからコードを非表示にできますか? はい。各ノートブックには「Toggle Code」ボタンがあります。

  • クラスタリングにAutoMLを使用できますか? サポートされていません(将来のリリースで計画されています)。

  • テキスト分析にAutoMLを使用できますか? サポートされていません(将来のリリースで計画されています)。

  • 予測中のユニットアワーを削減するためにモデル蒸留を実行できますか? サポートされていません(将来のリリースで計画されています)。

  • タスクスロットリング(ランダム遅延)は次の請求期間にリフレッシュされますか? いいえ。各月末に報告される超過使用量に依存します。例:5月20日に使用量が300ユニットアワーを超えた場合、スロットリングは追加のユニットアワーが購入されるか、翌月末に超過が解決されるまで維持されます。6月全体で超過が発生しなかった場合、7月にはスロットリングが無効になります。

  • AutoMLの最小契約期間は何ですか? 現在の条件については、Treasure Data Salesにお問い合わせください。

技術的なFAQ

  • AutoMLサービスはAWS SageMakerまたは他のAWSサービス上で実行されていますか? AutoMLはカスタムイメージを使用したAWS ECSを使用しています。現在はSageMakerを使用していません(将来的には使用する可能性があります)。

  • Treasure AutoMLの技術的な制限事項は何ですか? タスクは25時間後にタイムアウトします。すべてのAutoMLタスクは25時間以内に完了する必要があります。

  • 入力データの特性によってトレーニング時間が長くなることはありますか? トレーニング時間は、データの量、分布、複雑さに依存します。

  • AutoMLワークフローの同時実行数は通常のワークフロー(クエリ)の同時実行数とは別ですか? はい、それらは独立しています。

  • モデルはどのくらいの期間保存またはアクセス可能ですか? モデルは永続的に保存されます。ノートブックは作成から365日間アクセス可能です。その後は削除されます。長期的なアクセスが必要な場合は、ノートブックをダウンロードしてください。

  • AutoML機能にアクセスするためのユーザー権限はどうなっていますか?他のユーザーが実行したノートブックにアクセスできますか? AutoMLワークフローセッションを開始したユーザーがモデルのオーナーになります。予測モデルはオーナーのみに表示されます。スケジュールされたワークフローの場合、最後の編集者がオーナーになります。実行されたノートブックは、テーブルプレビューが含まれる可能性があるため、セッションオーナーのみに表示されます。

  • 他のユーザーがトレーニングした予測モデルにアクセスすることは可能ですか? はい、共有モデルを介して可能です。共有可能なモデル参照はタスクパラメータとして保存されます。他のユーザーは、共有されたモデルUUIDを予測タスクの_model_name_オプションとして使用できます。AutoMLモデル共有を参照してください。

  • ノートブックを他のユーザーと共有することは可能ですか? サポートされていません。ダウンロードして独自の方法で共有してください。

  • AutoMLは特徴量エンリッチメントまたは拡張を実行しますか? AutoMLはいくつかのAutoGluon自動特徴量エンジニアリングステップを実行します:日時変換、スペース区切りテキストのn-gram特徴量(AutoGluonのドキュメントを参照)。CJKテキストの場合は、Hivemallトークナイザー関数(Hiveエンジン)で前処理してください。

  • 推奨されるトレーニング時間制限は何ですか? タスク/データセットによって異なります。大規模な本番データセットの場合は約6時間、一般的なトレーニングの場合は少なくとも3時間を推奨します。3時間制限(10,800秒)で20以上のモデルの場合、各モデルは約9分を使用できます。

  • Treasure AutoMLは過学習を避けるために何をしますか? AutoGluonはn回繰り返しのk分割バギングを使用します。過学習をチェックするには、Shapley値とpermutation特徴量重要度を使用してください。

  • AutoGluonの場合、実行モデルを指定できますか? 特定のモデルを強制することはできませんが、exclude_modelsオプションを使用して除外できます。

  • Treasure AutoMLで多重共線性をどのように処理すべきですか? アンサンブルされたGBDTモデルはロバストです。相関のある特徴量は無視されることが多いです。ニューラルネットワークはLassoのような正則化を使用する場合があります。AutoMLは相関行列、permutation重要度、SHAP値も表示します。

  • ユーザーはどのモデルを使用するか選択できますか? 直接的にはできません。除外を使用してアンサンブルを形成してください。

  • AutoMLは不均衡データをどのように処理しますか? SMOTEオーバーサンプリングと確率キャリブレーションをサポートします。ロバストなモデル(Random Forest、XGBoostなど)を使用します。

  • TD AutoMLは回帰における外挿を処理できますか? ツリーモデルは外挿にロバストではありません。将来の予測には時系列予測を使用してください。

  • 多数の入力/出力テーブルの管理を簡素化するには? ML実験追跡とモデル管理を参照してください。

  • RFMでは、四分位数の代わりに任意の区分を適用できますか? 四分位数は固定です。

  • MTAでは、ページの効果が因果的であるかを分析できますか? パーソナライゼーションは適用されません。シャープレー帰属モデルは、各チャネルを協力ゲームにおけるプレイヤーとして扱います。

  • 二値分類において、正のクラスにはどのラベルが使用されますか? AutoGluonはクラスラベルを自然順でソートします。最初のラベルが負で、2番目が正です。例:1/0 → 1が正、Yes/No → Yesが正、True/False → Trueが正、True/false → falseが正(大文字が小文字より優先されます)。

ライセンスFAQ

  • ティアをどのように決定すればよいですか? 必要なメモリリソース、ノートブック、データ量、望ましい同時実行数、およびユーザー数を評価してください。

  • 最初に購入したソリューションノートブックを他のノートブックと交換できますか? はい、年間最大3回まで交換可能です。

  • 有効にするソリューションノートブックを事前に決定できますか? 少なくとも1つのバンドルを購入してください。単一の購入の場合、任意の2つのノートブックを選択し、評価後、1つを維持するか交換します(年間最大3回の交換)。

  • 実行済みのAutoMLノートブックを表示することは、ユニット時間にカウントされますか? いいえ。実行中のタスクのみがユニット時間を消費します。

  • アカウントの同時実行制限を超えた場合はどうなりますか? 制限に達すると、新しいタスクの送信は失敗します。必要に応じてティアをアップグレードしてください。

  • 未使用の時間は繰り越されますか? いいえ。毎月リセットされます。

  • ユニット時間制限は厳格ですか?契約時間を超えた場合はどうなりますか? ソフト制限です。TDは使用状況を監視します。一貫して超過している場合、ハード制限が適用され、その月の新しいタスクが防止される可能性があります。

  • 制限を超えた場合、実行中のタスクは強制終了されますか? いいえ。既存のタスクは継続します。制限は新しいタスクに適用されます。

  • 推奨されるメモリ(task_mem)はどのくらいですか? データセットによって異なります。AutoGluonは384 GBを推奨しています。TDは、トレーニングには≥256 GB(ティア2/3では384 GB)、予測には128 GB、探索には64 GBを推奨しています。

  • AutoML使用による他のコストはありますか? 予測結果の一括インポートは、一括インポート使用量にカウントされます(AutoML使用量ではありません)。