# 探索的データ分析

このノートブックは、*input_table* パラメータで指定されたテーブルを対象に探索的データ分析（EDA）を実行します。

サポートされている分析手法:

* [Pandas](https://pandas.pydata.org/) DataFrameに基づく基本的なEDA
* [Pandas Profiling](https://github.com/ydataai/pandas-profiling)
* [Sweetviz](https://github.com/fbdesignpro/sweetviz)に基づくEDA
* [missingno](https://github.com/ResidentMario/missingno)に基づく欠損データの可視化


EDAノートブックからの可視化の例を以下に示します:

![](/assets/image2023-2-23_20-40-6.7980bacfddabf6fe2b99ec8e79a5a0aee8cd804a6f474b0de93ffb5a5e985c51.3cb60505.png)

![](/assets/image2023-2-23_20-41-52.4239a194a4abb2f3fbceedbc78bd50d55ffedfe6fd60ddce5b7c48ec833e07a8.3cb60505.png)

![](/assets/image2023-2-23_20-38-52.8bbcf51dde2b996a379aadbf8fc583646ba6085e6a0a0d6e8faa7eebfb0c83dd.3cb60505.png)

### EDAワークフローの例

サンプルワークフローは[こちらのTreasure Boxes](https://github.com/treasure-data/treasure-boxes/blob/automl/machine-learning-box/automl/eda.dig)をご覧ください。


```yaml
+run_eda:
  ipynb>:
    notebook: EDA
    input_table: ml_datasets.bank_marketing
    eda: all
    sampling_threshold: 1000000
```

### パラメータ

| パラメータ名 | コンソール上のパラメータ | 説明 | デフォルト値 |
|  --- | --- | --- | --- |
| docker.task_mem | Docker Task Mem | タスクメモリサイズ。ご契約のティアに応じて、64g、128g（デフォルト）、256g、384g、または512gが利用可能です | 128g |
| input_table | Input Table | EDAに使用するTDテーブルをdbname.table_name形式で指定します | - |
| target_column | Target Column | ラベルとして使用するカラム名 | None |
| ignore_columns | Ignore Columns | EDAで無視するカラム | time |
| sampling_threshold | Sampling Threshold | サンプリングに使用する閾値。詳細は実行されたノートブックを参照してください | 10_000_000 |
| eda | Eda | allまたは実行するEDAの種類を指定するカンマ区切りの文字列 | all |