Skip to content
Last updated

クラスタリング

オーディエンススタジオでは、マーケターは属性ベースのルールを使用してセグメントを手動で作成し、どの顧客がどのセグメントに属するかを決定できます。これは、マーケターが特定のターゲットキャンペーン向けにペアレントセグメントを異なるグループに分割する方法を正確に把握している場合に有用です。

場合によっては、マーケターはセグメントの自動作成から恩恵を受けることがあります。このクラスタリングノートブックは、k-meansクラスタリングを使用して、顧客の属性に基づいて顧客をグループ化し、顧客セグメントを形成します。このノートブックは、最小クラスタ数と最大クラスタ数の間で複数回クラスタリングを試行し、平均シルエット係数を最大化する理想的なクラスタ数を見つけます。または、自動計算を上書きするために特定のセグメント数を指定することもできます。

このソリューションノートブックは主に顧客セグメンテーションを目的としていますが、一般的なk-meansクラスタリングを実行し、顧客セグメンテーションからアイテムセグメンテーションまで、あらゆる種類のセグメンテーションに適用できます。

予想される入力

このノートブックは、k-meansクラスタリングを使用して input_table に基づいて自動的にセグメント化します。cluster_idinput_table の各行に割り当てられ、拡張されたテーブルは output_table オプションを使用してTreasure Dataテーブルにエクスポートできます。

最適なクラスタ数は、min_clustersmax_clusters の間でシステムによって自動的に導出され、デフォルト値は上書きできます。希望するクラスタ数が事前にわかっている場合は、num_clusters オプションでクラスタ数を明示的に設定できます。

input_table にはあらゆる種類のテーブルを使用できますが、より良いクラスタリングのために、ignore_columns オプションでrowidやuseridなどの意味のない列を除外することが一般的に推奨されます(このノートブックは単一の値を持つ列を自動的に無視します)。

予想される出力

このノートブックは、feature GINI重要度とShapley値を使用して、ランダムフォレスト分類器によるクラスタリングラベルに対する基本的なEDA(探索的データ分析)とXAI(説明可能なAI)を実行します。

次のプロットグラフは、各クラスタの上位3つの特徴を示しています。

Screen Shot 2023-04-06 at 15 15 54

次のプロットは、各クラスタの平均SHAP値を示しています。このグラフは、どの属性がクラスタ割り当てに最も寄与しているかを示しています。

Screen Shot 2023-05-23 at 13 35 34

ワークフローの例

Treasure Boxesでサンプルワークフローをご覧いただけます。

+clustering_gluon:
  ipynb>:
    notebook: clustering
    input_table: ml_datasets.gluon_train
    output_table: ml_test.gluon_train_clustered_${session_id}

パラメータ

パラメータ名コンソール上のパラメータ説明必須デフォルト値値の例
input_tabledbname.table_name形式でクラスタリングに使用するTDテーブルを指定はい文字列 (dbname.table_name)
ml_dataset.gluon_train
output_tabledbname.table_name形式でクラスタリング結果をエクスポートするTDテーブルを指定いいえ文字列 (dbname.table_name)
ml_output.cluster
model_nameオプションで保存するモデル名を指定します。通常は設定する必要はありません。いいえ文字列
gluon_model
force_refit既存の学習済みモデルがある場合でも強制的に適合します。force_refitをfalseに設定することは 実験的 なオプションであることに注意してください。いいえブール値truetrue
output_modeoutput_tableをエクスポートするための出力モード。通常、指定する必要はありません。いいえ文字列 (overwrite/replace または append)overwriteoverwrite
min_clusters最小クラスタ数を指定いいえ整数25
max_clusters最大クラスタ数を指定いいえ整数925
num_clusters固定クラスタ数を指定いいえ整数None3
ignore_columns予測モデル構築時に無視する列いいえ文字列 (カンマ区切り)timetime, rowid
dimension_reduction_threshold次元削減に使用される閾値。いいえ整数5030
export_feature_importance指定した場合、特徴量重要度をTDテーブルとしてエクスポートします。いいえ文字列 ([dbname.]table_name)Noneml_test.feature_importance
export_shap_values各クラスタのSHAP値をTDテーブルとしてエクスポートいいえ文字列 ([dbname.]table_name)Noneml_test.shap_values
hide_table_contentsテーブルの内容の表示を抑制いいえブール値falsefalse
audience_name属性テーブルをマージするオーディエンス名いいえ文字列Nonemy_master_segment_name
foreign_keyオーディエンス統合に使用されるマスターセグメントの外部キー列名。いいえ文字列Nonetd_canonical_id
rowid_columninput_table内のrowid(主キー)列。オーディエンス統合のための属性テーブル結合キーとして必要であり、使用されます。いいえ文字列Noneuserid

オーディエンス統合 CDPマスターセグメントに属性テーブルを追加するには、3つのオプションすべてを設定してください:audience_nameforeign_key、および rowid_columnrowid_column は、オーディエンスマスターテーブル内で結合される output_table の結合キーです。これらのオプションが設定されると、CDPセグメントは各クラスタに対して自動的に生成されます。マーケターは、オーディエンススタジオのルールビルダーでクラスタルールをさらに変更できます。たとえば、他の属性を使用して、生成されたセグメントを追加のルールと組み合わせることができます。

パラメータ force_refitfalse に設定し、事前に計算されたモデル(k-meansセントロイド)を使用することは実験的な機能であり、デフォルトの true オプションから変更することは推奨されません。