# Amazon S3 Export Integration V1 Amazon Simple Storage Service (Amazon S3)は、スケーラビリティ、データの可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。データレイク、ウェブサイト、モバイルアプリケーション、バックアップと復元、アーカイブ、エンタープライズアプリケーション、IoTデバイス、ビッグデータ分析などのために、あらゆる量のデータを保存および保護するために使用できます。Amazon S3は、ビジネス、組織、コンプライアンス要件に対応するデータ編成とアクセス制御の構成機能を提供します。 このTD export integrationを使用すると、Treasure Dataからジョブ結果を直接Amazon S3に書き込むことができます。 ## この統合で何ができますか? - **データの保存**: バケットに無制限のデータを保存できます。 ## 前提条件 - Treasure Dataの基本的な知識([TD Toolbelt](https://toolbelt.treasuredata.com/)を含む) - AWS用: `s3:PutObject`および`s3:AbortMultipartUpload`権限を持つIAM User。この接続に使用するIAM Userには他の権限を設定しないことをお勧めします。 ## 要件と制限 - S3へのエクスポートのクエリ結果の制限は100GBです。クエリ結果が制限を超える場合、ログに次のメッセージが表示されます: `The number of chunks for multipart upload is exceeded.` クエリでデータを分割してみてください。 - デフォルトのエクスポート形式は[CSV RFC 4180](http://www.ietf.org/rfc/rfc4180.txt)です。 - TSV形式での出力もサポートされています。 ## Treasure Data Integration の静的 IP アドレス セキュリティポリシーで IP ホワイトリストが必要な場合は、接続を成功させるために Treasure Data の IP アドレスを許可リストに追加する必要があります。 リージョンごとに整理された静的 IP アドレスの完全なリストは、次のリンクにあります: [https://api-docs.treasuredata.com/en/overview/ip-addresses-integrations-result-workers/](https://api-docs.treasuredata.com/en/overview/ip-addresses-integrations-result-workers/) ## S3 Server-Side Encryptionについて [AWS S3 Server-Side Encryption](http://docs.aws.amazon.com/AmazonS3/latest/dev/UsingServerSideEncryption.html)を使用してアップロードデータを暗号化できます。このために暗号化キーを準備する必要はありません。データは、256ビットAdvanced Encryption Standard (AES-256)を使用してサーバー側で暗号化されます。 バケットに保存されているすべてのオブジェクトにサーバー側の暗号化が必要な場合は、Server-Side Encryptionバケットポリシーを使用してください。サーバー側の暗号化が有効になっている場合、**use_sse**オプションをオンにする必要はありません。ただし、暗号化情報なしのHTTPリクエストを拒否するバケットポリシーが設定されている場合、ジョブ結果が失敗する可能性があります。 ```bash td query \ --result 's3://accesskey:secretkey@/bucketname/path/to/file.csv?use_sse=true&sse_algorithm=AES256' \ -w -d testdb \ "SELECT code, COUNT(1) AS cnt FROM www_access GROUP BY code" ``` ## S3のファイル形式について デフォルトのエクスポート形式は[CSV RFC 4180](http://www.ietf.org/rfc/rfc4180.txt)です。TSV形式での出力もサポートされています。 ファイル形式をカスタマイズするオプション... CSVとTSVの両方の形式について、次の表に示すオプションを使用して、宛先に書き込まれるファイルの最終形式をカスタマイズできます: | Name | Description | Restrictions | CSV default | TSV default | JSONL | | --- | --- | --- | --- | --- | --- | | format | ファイル形式を指定するメイン設定 | | csv | csv (TSV形式を選択するには'tsv'を使用) | JSONL形式を選択するにはJSONLを使用 | | delimiter | 区切り文字を指定するために使用 | | , (comma) | \t (tab) | Parameter ignored | | quote | 引用符文字を指定するために使用 | TSV形式では使用不可 | " (double quote) | (no character) | Parameter ignored | | escape | 他の特殊文字をエスケープするために使用される文字を指定 | TSV形式では使用不可 | " (double quote) | (no character) | Parameter ignored | | null | 'null'値の表示方法を指定するために使用 | | (empty string) | \N (backslash capital n) | Parameter ignored | | newline | EOL (End-Of-Line)表現を指定するために使用 | | (CRLF) | (CRLF) | | | header | 列ヘッダーを抑制するために使用可能 | | 列ヘッダーが出力されます。抑制するには'false'を使用 | 列ヘッダーが出力されます。抑制するには'false'を使用 | Parameter ignored | 次の例は、カスタマイズが要求されていない場合のCSV形式のデフォルトサンプル出力を示しています: ``` code,cnt "200",4981 "302", "404",17 "500",2 ``` `format=tsv、delimiter="、null=NULL`オプションが指定された場合: ```bash td query \ --result 's3://accesskey:secretkey@/bucket_name/path/to/file.tsv?format=tsv&delimiter=%22&null=empty' \ -w -d testdb \ "SELECT code, COUNT(1) AS cnt FROM www_access GROUP BY code" ``` access keyとsecret keyは[URLエンコード](http://en.wikipedia.org/wiki/Percent-encoding)する必要があります。 出力は次のように変更されます: ``` "code" "cnt" "200" 4981 "302" NULL "404" 17 "500" 2 ``` # TD Consoleを使用して接続を作成する Treasure Dataでは、クエリを実行する前にデータ接続を作成して構成する必要があります。データ接続の一部として、統合にアクセスするための認証を提供します。 ## 新しい認証を作成する 1. **TD Console**を開きます。 2. **Integrations Hub** > **Catalog**に移動します。 3. AWS S3を検索します。 4. **Create Authentication**を選択します。![](/assets/amazons3.76925fb4451d1607d39ea898d7e17d50476ebaeb9ef9b2152962f3207b76b9f5.ecf98b31.png) 5. New Authenticationダイアログが開きます。認証情報を使用して認証するには、client IDとaccess keysが必要です。 ![](/assets/screenshot-2021-10-28-12.40.19.db4fe96762e85ab10bfcc61d02f499bd94d3fbfcc9325dfc0a40492799b9144d.ecf98b31.png) 6. 次のパラメータを設定します。 | **Parameter** | **Description** | | --- | --- | | **Endpoint** | - S3エンドポイントログインユーザー名。リージョンとエンドポイント情報は[AWS Document](http://docs.aws.amazon.com/general/latest/gr/rande.md#s3_region)から確認できます。(例: [*s3-ap-northeast-1.amazonaws.com*](http://s3-ap-northeast-1.amazonaws.com)) | | **Authentication Method** | | | **basic** | - access_key_idとsecret_access_keyを使用して認証します。[AWS Programmatic access](https://docs.aws.amazon.com/general/latest/gr/managing-aws-access-keys.md)を参照してください。 - Access Key ID - Secret access key | | **anonymous** | - 匿名アクセスを使用します。この認証方法は公開ファイルにのみアクセスできます。 | | **session (推奨)** | - 一時的に生成されたaccess_key_id、secret_access_key、session_tokenを使用します。(この認証方法はデータインポートでのみ使用できます。現在、データエクスポートでは使用できません。) - Access Key ID - Secret access key - Secret token | | **Access Key ID** | AWS S3発行 | | **Secret Access Key** | AWS S3発行 | 1. **Continue**を選択します。 2. 新しいAWS S3接続に名前を付けます。 3. **Done**を選択します。 ## クエリを定義する 1. [Creating a Destination Integration](https://docs.treasuredata.com/smart/project-product-documentation/creating-a-destination-integration)の手順を完了します。 2. **Data Workbench > Queries**に移動します。 3. データをエクスポートするクエリを選択します。 4. クエリを実行して結果セットを検証します。 5. **Export Results**を選択します。 6. 既存の統合認証を選択します。 ![](/assets/amazon-s3-export-integration-v1-2024-06-19-1.9adb829424614e86cf3483ba1168465ed5a14da5e198ae77b6a11f7a7a0da247.ecf98b31.png) 7. 追加のExport Resultsの詳細を定義します。エクスポート統合コンテンツで統合パラメータを確認します。 例えば、Export Results画面が異なる場合や、記入する追加の詳細がない場合があります。 8. **Done**を選択します。 9. クエリを実行します。 10. データが指定した宛先に移動したことを検証します。 ## 結果エクスポートターゲットを指定する 1. **Export Results**を選択します。 ![](/assets/image2021-9-7_15-10-56.ee7ed43caab64adefafcc22595462fd8068c974c4f47b5959a7babd7d99972b8.ecf98b31.png) 2. 既存の認証を選択するか、出力に使用する外部サービスの新しい認証を作成できます。次のいずれかを選択します: **Use Existing Integration** ![](/assets/image2021-9-7_15-28-30.d271866c7c3cea4dab234b61bea815a69b186746c80435855b4b86d1f77cc30e.ecf98b31.png) Create a New Integration ![](/assets/image2021-9-7_15-30-17.3285b5d5c406c0a80239f6fb997dba38329830a15dd556d1b57b0b43ca1818be.ecf98b31.png) ![](/assets/image2021-9-7_15-33-54.40fc7ad84a59b94dc3c08c45ae41d10835d9dd527acff5841e81d82eb87ecf38.ecf98b31.png) **(オプション) Amazon S3へのエクスポート情報を指定する** ![](/assets/s3_v1_export_settings.3a38230cb120be2f82519bfc35782ec845e76d945dfe3d9339385863ef441e17.ecf98b31.png) | Field | Description | | --- | --- | | Use AWS S3 Server-Side Encryption | 選択した場合、**Server-Side Encryption algorithm**としてAES256を選択してください | | Bucket | S3バケット名を指定します | | Path | エクスポートされるファイルにファイル名を含むパスを指定します | | Part Size | マルチパートアップロードのターゲットパートサイズを指定します デフォルト: 10 (MB)、最小: 10、最大: 5000 | | Format | エクスポートされるファイルの形式 - csv - tsv - jsonl | | Compression | エクスポートされるファイルの圧縮形式: - None - gz | | Include header line? | 選択した場合、最初の行として列名を含むヘッダー行が含まれます。 | | Delimiter | 区切り文字: - Default - , - Tab - | | | String for null cells | クエリ結果のnull値の表示方法: - Default - empty string - \N - NULL - null | | End-of-line character | EOL (end-of-line)文字: - CRLF - LF - CR | | Quote character | エクスポートされるファイルで引用符に使用される文字。区切り文字、引用符、または行終端文字のいずれかを含むフィールドのみを引用符で囲みます。 | | Escape character | エクスポートされるファイルで使用されるエスケープ文字 | ## S3の統合パラメータ 次の転送パラメータを定義します: ![](/assets/image2020-12-7_15-10-9.1d1b28978caf00dc67d1d977dcb97d6ae2d6da04eb4f4944fbd2bc71c8a110b0.ecf98b31.png) - **`Use AWS S3 Server-Side Encryption`ボックスがチェックされている場合:** - **Server-Side Encryption algorithm.***(例: AES256)* - **Bucket**: S3バケット名を指定します(例: your_bucket_name)。 - **Path**: ターゲットキーのプレフィックスを指定します(例: logs/data_)。 - **Format**: エクスポートされるファイルの形式(例: *csv (comma separated or tab separated*))。 - **Compression**: エクスポートされるファイルの圧縮形式*(例: None or gz)*。 - **Delimiter**: 区切り文字を指定するために使用*(例、(comma))*。 - **String for null cells**: null値に挿入するプレースホルダー*(例: Empty String)*。 - **End-of-line character**: EOL(End-Of-Line)表現を指定*(例: CRLF)*。 - **Quote Character (オプション)**: エクスポートされるファイルで引用符に使用される文字(例: ")。区切り文字、引用符、または行終端文字のいずれかを含むフィールドのみを引用符で囲みます。 - **Escape character (オプション)**: エクスポートされるファイルで使用されるエスケープ文字。 ### クエリ例 例えば: ```sql SELECT code, COUNT(1) AS cnt FROM www_access GROUP BY code ``` 1. 転送の詳細を入力する際に指定したAmazon S3バケットで結果を確認します。 ## Audience Studio で Segment をアクティベートする Audience Studio で activation を作成することで、segment データをターゲットプラットフォームに送信することもできます。 1. **Audience Studio** に移動します。 2. parent segment を選択します。 3. ターゲット segment を開き、右クリックして、**Create Activation** を選択します。 4. **Details** パネルで、Activation 名を入力し、前述の Configuration Parameters のセクションに従って activation を設定します。 5. **Output Mapping** パネルで activation 出力をカスタマイズします。 ![](/assets/ouput.b2c7f1d909c4f98ed10f5300df858a4b19f71a3b0834df952f5fb24018a5ea78.8ebdf569.png) - Attribute Columns - **Export All Columns** を選択すると、変更を加えずにすべての列をエクスポートできます。 - **+ Add Columns** を選択して、エクスポート用の特定の列を追加します。Output Column Name には、Source 列名と同じ名前があらかじめ入力されます。Output Column Name を更新できます。**+ Add Columns** を選択し続けて、activation 出力用の新しい列を追加します。 - String Builder - **+ Add string** を選択して、エクスポート用の文字列を作成します。次の値から選択します: - String: 任意の値を選択します。テキストを使用してカスタム値を作成します。 - Timestamp: エクスポートの日時。 - Segment Id: segment ID 番号。 - Segment Name: segment 名。 - Audience Id: parent segment 番号。 1. **Schedule** を設定します。 ![](/assets/snippet-output-connector-on-audience-studio-2024-08-28.a99525173709da1eb537f839019fa7876ffae95045154c8f2941b030022f792c.8ebdf569.png) - スケジュールを定義する値を選択し、オプションでメール通知を含めます。 1. **Create** を選択します。 batch journey の activation を作成する必要がある場合は、[Creating a Batch Journey Activation](/products/customer-data-platform/journey-orchestration/batch/creating-a-batch-journey-activation) を参照してください。 - [Achieving Time Partitioning in S3 of Data Exported using Bulk Export](/ja/int/achieving-time-partitioning-in-s3-of-data-exported-using-bulk-export) ## (オプション) クエリエクスポートジョブをスケジュールする Scheduled JobsとResult Exportを使用して、指定したターゲット宛先に出力結果を定期的に書き込むことができます。 Treasure Dataのスケジューラー機能は、高可用性を実現するための定期的なクエリ実行をサポートします。 2つの仕様が競合するスケジュール仕様を提供する場合、より頻繁に実行することを要求する仕様が従われ、もう一方のスケジュール仕様は無視されます。 例えば、cronスケジュールが`'0 0 1 * 1'`の場合、「月の日」仕様と「曜日」は不一致です。前者の仕様では毎月1日の深夜(00:00)に実行することが要求され、後者の仕様では毎週月曜日の深夜(00:00)に実行することが要求されるためです。後者の仕様が従われます。 ### (オプション) Query Export ジョブをスケジュールする Scheduled Jobs と Result Export を使用して、指定したターゲット宛先に出力結果を定期的に書き込むことができます。 Treasure Data のスケジューラー機能は、高可用性を実現するために定期的なクエリ実行をサポートしています。 2 つの仕様が競合するスケジュール仕様を提供する場合、より頻繁に実行するよう要求する仕様が優先され、もう一方のスケジュール仕様は無視されます。 例えば、cron スケジュールが `'0 0 1 * 1'` の場合、「月の日」の仕様と「週の曜日」が矛盾します。前者の仕様は毎月 1 日の午前 0 時 (00:00) に実行することを要求し、後者の仕様は毎週月曜日の午前 0 時 (00:00) に実行することを要求するためです。後者の仕様が優先されます。 #### TD Console を使用してジョブをスケジュールする 1. **Data Workbench > Queries** に移動します 2. 新しいクエリを作成するか、既存のクエリを選択します。 3. **Schedule** の横にある None を選択します。 ![](/assets/image2021-1-15_17-28-51.f1b242f6ecc7666a0097fdf37edd1682786ec11ef80eff68c66f091bc405c371.0f87d8d4.png) 4. ドロップダウンで、次のスケジュールオプションのいずれかを選択します: ![](/assets/image2021-1-15_17-29-47.45289a1c99256f125f4d887e501e204ed61f02223fde0927af5f425a89ace0c0.0f87d8d4.png) | ドロップダウン値 | 説明 | | --- | --- | | Custom cron... | [Custom cron... の詳細](#custom-cron-details)を参照してください。 | | @daily (midnight) | 指定されたタイムゾーンで 1 日 1 回午前 0 時 (00:00 am) に実行します。 | | @hourly (:00) | 毎時 00 分に実行します。 | | None | スケジュールなし。 | #### Custom cron... の詳細 ![](/assets/image2021-1-15_17-30-23.0f94a8aa5f75ea03e3fec0c25b0640cd59ee48d1804a83701e5f2372deae466c.0f87d8d4.png) | **Cron 値** | **説明** | | --- | --- | | `0 * * * *` | 1 時間に 1 回実行します。 | | `0 0 * * *` | 1 日 1 回午前 0 時に実行します。 | | `0 0 1 * *` | 毎月 1 日の午前 0 時に 1 回実行します。 | | "" | スケジュールされた実行時刻のないジョブを作成します。 | ``` * * * * * - - - - - | | | | | | | | | +----- day of week (0 - 6) (Sunday=0) | | | +---------- month (1 - 12) | | +--------------- day of month (1 - 31) | +-------------------- hour (0 - 23) +------------------------- min (0 - 59) ``` 次の名前付きエントリを使用できます: - Day of Week: sun, mon, tue, wed, thu, fri, sat. - Month: jan, feb, mar, apr, may, jun, jul, aug, sep, oct, nov, dec. 各フィールド間には単一のスペースが必要です。各フィールドの値は、次のもので構成できます: | フィールド値 | 例 | 例の説明 | | --- | --- | --- | | 各フィールドに対して上記で表示された制限内の単一の値。 | | | | フィールドに基づく制限がないことを示すワイルドカード `'*'`。 | `'0 0 1 * *'` | 毎月 1 日の午前 0 時 (00:00) に実行するようにスケジュールを設定します。 | | 範囲 `'2-5'` フィールドの許可される値の範囲を示します。 | `'0 0 1-10 * *'` | 毎月 1 日から 10 日までの午前 0 時 (00:00) に実行するようにスケジュールを設定します。 | | カンマ区切りの値のリスト `'2,3,4,5'` フィールドの許可される値のリストを示します。 | `0 0 1,11,21 * *'` | 毎月 1 日、11 日、21 日の午前 0 時 (00:00) に実行するようにスケジュールを設定します。 | | 周期性インジケータ `'*/5'` フィールドの有効な値の範囲に基づいて、 スケジュールが実行を許可される頻度を表現します。 | `'30 */2 1 * *'` | 毎月 1 日、00:30 から 2 時間ごとに実行するようにスケジュールを設定します。 `'0 0 */5 * *'` は、毎月 5 日から 5 日ごとに午前 0 時 (00:00) に実行するようにスケジュールを設定します。 | | `'*'` ワイルドカードを除く上記の いずれかのカンマ区切りリストもサポートされています `'2,*/5,8-10'` | `'0 0 5,*/10,25 * *'` | 毎月 5 日、10 日、20 日、25 日の午前 0 時 (00:00) に実行するようにスケジュールを設定します。 | 1. (オプション) Delay execution を有効にすることで、クエリの開始時刻を遅延させることができます。 ### クエリを実行する クエリに名前を付けて保存して実行するか、単にクエリを実行します。クエリが正常に完了すると、クエリ結果は指定された宛先に自動的にエクスポートされます。 設定エラーにより継続的に失敗するスケジュールジョブは、複数回通知された後、システム側で無効化される場合があります。 (オプション) Delay execution を有効にすることで、クエリの開始時刻を遅延させることができます。 # (オプション) Workflowで結果エクスポートを構成する Treasure Workflow内で、このデータコネクタを使用してデータをエクスポートすることを指定できます。 - [About Using Workflows to Export Data with TD Toolbelt](https://docs.treasuredata.com/display/PD/About+Using+Workflows+to+Export+Data+with+TD+Toolbelt) - workflowでデータコネクタを使用してデータをエクスポートする方法の詳細について - [Treasure Boxes](https://github.com/treasure-data/treasure-boxes/tree/e5d13703022cb6a3f608f9bd0d9ccba07f93229f/scenarios/result_export/export_result_s3) - workflowの例を確認する - [About Workflow Secrets Management](https://docs.treasuredata.com/smart/project-product-documentation/about-workflow-secret-management) - workflowで認証情報をマスクするためにシークレットを構成する方法の詳細について 詳細は[Using Workflows to Export Data with the TD Toolbelt](https://docs.treasuredata.com/display/PD/About+Using+Workflows+to+Export+Data+with+TD+Toolbelt)をご覧ください。 ``` timezone: UTC _export: td: database: sample_datasets +td-result-into-s3: td>: queries/sample.sql result_connection: your_connections_name result_settings: bucket: your_bucket path: /path/file_${moment(session_time).format("YYYYMMDD")}.csv.gz compression: 'gz' header: true newline: \r\n "null": "hoge" ``` # (オプション) CLIを使用した統合のエクスポート TD Consoleが利用できない場合、またはニーズに合わない場合は、CLIを使用してクエリを発行し、結果を出力できます。CLIを使用してクエリ出力結果をフォーマットします。 ## 必須 access keyとsecret keyは[URLエンコード](http://en.wikipedia.org/wiki/Percent-encoding)する必要があります。 ## CLIでクエリエクスポートを定義する 単一のクエリの結果をS3バケットに出力するには、td queryコマンドに--resultオプションを追加します。ジョブが完了すると、結果がデータベースに書き込まれます。 オンデマンドジョブの場合は、td queryコマンドに--resultオプションを追加するだけです。ジョブが完了すると、結果は指定された名前とパスでS3バケットに書き込まれます。access keyとsecret keyは[URLエンコード](http://en.wikipedia.org/wiki/Percent-encoding)する必要があります。 ```bash td query \ --result 's3://accesskey:secretkey@/bucketname/path/to/file.csv.gz?compression=gz' \ -w -d testdb \ "SELECT code, COUNT(1) AS cnt FROM www_access GROUP BY code" ``` セキュリティ上の理由から、[AWS IAM](http://aws.amazon.com/iam/)を使用してストレージの書き込みとアクセス権限を管理することをお勧めします。 結果を圧縮するために、—result URLで圧縮オプション(現時点ではgzのみ許可)を指定できます。圧縮パラメータがない場合、非圧縮データが生成されます。access keyとsecret keyは[URLエンコード](http://en.wikipedia.org/wiki/Percent-encoding)する必要があります。 ```bash td query \ --result 's3://accesskey:secretkey@/bucketname/path/to/file.csv' \ -w -d testdb \ "SELECT code, COUNT(1) AS cnt FROM www_access GROUP BY code" ```