Skip to content
Last updated

MLデータセット

このノートブックは、指定された出力データベースにサンプルのMLデータセットを生成します。

ワークフローの例

サンプルワークフローはこちらのTreasure Boxesにあります。

+load_datasets:
  ipynb>:
    notebook: ml_datasets
    output_database: ml_datasets
    datasets: all

パラメータ

パラメータ名コンソール上のパラメータ説明デフォルト値
docker.task_memDocker Task Memタスクメモリサイズ。契約されているティアに応じて、64g、128g(デフォルト)、256g、384g、または512gの値が使用できます。128g
datasetsDatasetsセットアップするデータセットを指定する「all」またはカンマ区切りの文字列。all
output_databaseOutput Databaseセットアップするデータセット名。ml_datasets
replace_if_existsReplace If Existsテーブルが既に存在する場合に置き換えます。デフォルトではfalseに設定されています。false

データセットの説明

データセット説明関連するタスクターゲット列列数行数
gluonAutoGluonサンプルデータセット。二値/多クラス分類class(二値)、occupation(多クラス)1539,073(トレーニング)、9,769(テスト)
bank_marketing銀行マーケティングデータセット。
クライアントが定期預金を申し込むかどうかを予測します。二値分類y2128,831(トレーニング)、12,357(テスト)
vehicle_coupon車内クーポン推奨データセット。
さまざまなシナリオでドライバーにクーポンを推奨します。多クラス分類coupon268,878(トレーニング)、3,806(テスト)
online_retailオンライン小売トランザクションデータセット。
各顧客のLTVスコアを予測します。回帰(CLTV予測)、RFMcltv112,230(トレーニング)、956(テスト)
telco_churn通信事業者の解約イベントデータセット。二値分類(解約予測)churn214,930(トレーニング)、2,113(テスト)
california_houseカリフォルニアの住宅価格データセット。
住宅価格を予測します。回帰median_house_value1014,448(トレーニング)、6,192(テスト)
transition_matrixウェブアクセスのサンプル遷移データセット。
ウェブアクセスの遷移を分析します。ネットワーク分析-312
ts_airline時系列航空旅客データセット。
乗客数を予測します。時系列予測(単変量)number_of_airline_passengers2100(トレーニング)、44(テスト)
m4M4データセットの四半期時系列。時系列予測(多変量)v7(または任意のv?)86733,600(トレーニング)、14,400(テスト)
nbaNext-Best-Actionデータセット。Next Best Action-643,196(トレーニング)、12,829(テスト)
mtaマーケティングアトリビューションモデルのDP6データセット。Multi-Touch Attribution-4500,000
dermatology皮膚科疾患データセット。
6種類のEryhemato-Squamous疾患を判定します。多クラス分類、クラスタリングclass35366
creditcardクレジットカード不正利用データセット。
匿名化されたトランザクションを不正または正規として予測します。二値分類(不正検出)fraud29199,364(トレーニング)、85,443(テスト)
clutoクラスタリング用のClutoデータセット。クラスタリングclass310,000
covtype森林被覆タイプデータセット。
ピクセルを7つの森林被覆タイプに分類します。多クラス分類target55406,708(トレーニング)、174,304(テスト)
20newsgroups20ニュースグループドキュメントデータセット。
このデータセットは20の異なるニュースグループのデータから構成されています。多クラス分類target30111,314(トレーニング)、7,532(テスト)
4,871(不均衡トレーニング)
cosmetics_store化粧品店eコマースイベント履歴データセット。RFM分析、クラスタリング-51,287,007