この記事では、バルクインポートに関するヒントとコツについて説明します。
このエラーは、v0.16.7以前のバージョンで発生した可能性があります。
td import:jar_updateで以下のエラーが発生した場合は、次のいずれかの解決策を使用してエラーを解決してください。
Error: There was a problem accessing the remote XML resource
'http://central.maven.org/maven2/com/treasuredata/td-import/maven-metadata.xml'
(TreasureData::Command::UpdateError: An error occurred when fetching
from 'http://central.maven.org/maven2/com/treasuredata/td-import/maven-metadata.xml'.)このエラーは、v0.16.8またはそれ以降のバージョンで解決されています。
環境変数を設定することでエラーを回避できます。
$ export TD_TOOLBELT_JARUPDATE_ROOT=https://repo1.maven.orgデータをアップロードできない場合は、ネットワークがプロキシを使用していないか確認してください。環境変数を設定することでプロキシを設定できます:
| オペレーティングシステム | オプション1 | オプション2 |
|---|---|---|
| Windows | $ set HTTP_PROXY=http://proxy_host:8080 | $ set HTTP_PROXY=http://user:password@proxy_host:8080 |
| その他 | $ export HTTP_PROXY="proxy_host:8080" | $ export HTTP_PROXY="user:password@proxy_host:8080" |
td import:autoは、並列処理を調整するための2つのオプション--parallelと--prepare-parallelをサポートしています。
完全な構文リファレンスについては、TD Toolbeltコマンドリファレンスを参照してください。
$ td import:auto session name <files...>
--parallel NUM
--prepare-parallel NUM- Parallelは、データのアップロードに使用されるスレッド数を指定します。バルクインポートツールがネットワークを飽和させていない場合は、
--parallelオプションの値を増やすことができます。デフォルトは2、最大は8です。 - Prepare parallelは、データをローカルで圧縮するために使用されるスレッド数を指定します。通常、この数はマシンのCPUコア数と一致する必要があります。デフォルトは2、最大は96です。
時間列がない場合は、'0'を指定しないでください。Treasure Dataはデフォルトでデータを時間別にパーティション分割します。データパーティショニングを参照してください。常に時間列を指定するか、現在の時刻を指定することをお勧めします。
自動jar_updateを有効/無効にするオプションは、td v0.11.2以降のバージョンに含まれています
環境変数フック: TD_TOOLBELT_JAR_UPDATE。
$ td import:prepare
$ TD_TOOLBELT_JAR_UPDATE=1 td import:prepare$ TD_TOOLBELT_JAR_UPDATE=0 td import:prepareただし、この設定はtd import:jar_updateには影響しません。このコマンドは常にJARファイルを更新します。
バルクインポートツールはTZ環境変数を使用します。バルクインポートのタイムゾーンが間違っていると思われる場合は、TZ環境変数を確認してください。
shift_jisをエンコードする場合は、エンコーディングオプションを'-e Windows-31J'に設定する必要があります。
データソースの時刻フォーマットをバルクインポートに割り当てたい場合は、次の対応表に従って--time-formatを使用できます。
| 文字 | 日付または時刻コンポーネント | 表現 | 例 |
|---|---|---|---|
| Y,G | 世紀を含む年 | 年 | 1996; 2006 |
| y,g | 年の下2桁 | 年 | 96; 06 |
| m | 年の月 | 月 | 01..12 |
| B,b | 完全/省略形の月名 | 月 | January; Jan |
| d,e | 月の日、ゼロ/空白パディング | 数値 | 01..31; 1…31 |
| V | 週ベースの年の週番号 | 数値 | 01..53 |
| j | 年の日 | 数値 | 0-365 |
| A,a | 完全/省略形の曜日名 | テキスト | Tuesday; Tue |
| H,k | 日の時 | 数値 | 00-23; 0-23 |
| I,l | 日の時 | 数値 | 00-11; 0-11 |
| M | 時の分 | 数値 | 00-59 |
| S | 分の秒 | 数値 | 00-59 |
| L | ミリ秒 | 数値 | 000-999 |
| P,p | AM/PM; am/pmマーカー | テキスト | AM; PM; am; pm |
| Z,z | タイムゾーン | 一般的なタイムゾーン | GMT-08:00; -0800 |
| c | 年から秒まで | テキスト | Tue Jan 1 14:00:00 2016 |
| D,x | 年から日まで | テキスト | 01/01/16 |
| F | 年から日まで | テキスト | 2016-01-01 |
| T,X | 時から秒まで | テキスト | 14:00:00 |
| r | 時から秒までam/pm | テキスト | 02:00:00 pm |
| R | 時から分まで | テキスト | 14:00 |
| n | 改行文字 | LF | \n |
| t | タブ文字 | Tab | \t |
| % | リテラル%文字 | % | % |