# 探索的データ分析 このノートブックは、*input_table* パラメータで指定されたテーブルを対象に探索的データ分析(EDA)を実行します。 サポートされている分析手法: * [Pandas](https://pandas.pydata.org/) DataFrameに基づく基本的なEDA * [Pandas Profiling](https://github.com/ydataai/pandas-profiling) * [Sweetviz](https://github.com/fbdesignpro/sweetviz)に基づくEDA * [missingno](https://github.com/ResidentMario/missingno)に基づく欠損データの可視化 EDAノートブックからの可視化の例を以下に示します: ![](/assets/image2023-2-23_20-40-6.7980bacfddabf6fe2b99ec8e79a5a0aee8cd804a6f474b0de93ffb5a5e985c51.3cb60505.png) ![](/assets/image2023-2-23_20-41-52.4239a194a4abb2f3fbceedbc78bd50d55ffedfe6fd60ddce5b7c48ec833e07a8.3cb60505.png) ![](/assets/image2023-2-23_20-38-52.8bbcf51dde2b996a379aadbf8fc583646ba6085e6a0a0d6e8faa7eebfb0c83dd.3cb60505.png) ### EDAワークフローの例 サンプルワークフローは[こちらのTreasure Boxes](https://github.com/treasure-data/treasure-boxes/blob/automl/machine-learning-box/automl/eda.dig)をご覧ください。 ```yaml +run_eda: ipynb>: notebook: EDA input_table: ml_datasets.bank_marketing eda: all sampling_threshold: 1000000 ``` ### パラメータ | パラメータ名 | コンソール上のパラメータ | 説明 | デフォルト値 | | --- | --- | --- | --- | | docker.task_mem | Docker Task Mem | タスクメモリサイズ。ご契約のティアに応じて、64g、128g(デフォルト)、256g、384g、または512gが利用可能です | 128g | | input_table | Input Table | EDAに使用するTDテーブルをdbname.table_name形式で指定します | - | | target_column | Target Column | ラベルとして使用するカラム名 | None | | ignore_columns | Ignore Columns | EDAで無視するカラム | time | | sampling_threshold | Sampling Threshold | サンプリングに使用する閾値。詳細は実行されたノートブックを参照してください | 10_000_000 | | eda | Eda | allまたは実行するEDAの種類を指定するカンマ区切りの文字列 | all |