Skip to content
Last updated

Scala Apps Import Integration

Treasure Dataは、サーバー側のログとイベントを収集し、Scalaアプリケーションからデータをインポートするためにtd-agentを提供しています。

前提条件

  • Scalaの基本知識
  • TD Toolbeltを含むTreasure Dataの基本知識
  • JVM、Scala、sbt v0.11以降

td-agentのインストール

アプリケーションサーバーにtd-agentをインストールします。td-agentはアプリケーションサーバー内に配置され、アプリケーションログをクラウドにアップロードすることに重点を置いています。

td-logger-javaライブラリを使用すると、Scalaアプリケーションがローカルのtd-agentにレコードを投稿できます。td-agentは、5分ごとにデータをクラウドにアップロードします。デーモンはローカルノードで実行されるため、ロギングのレイテンシは無視できます。

td-agentインストールオプション

td-agentをインストールするには、環境に基づいて次のコマンドのいずれかを実行します。エージェントプログラムは、rpm/deb/dmgなどの各プラットフォームのパッケージ管理ソフトウェアを使用して自動的にインストールされます。

RHEL/CentOS 5,6,7

$ curl -L https://toolbelt.treasuredata.com/sh/install-redhat-td-agent3.sh | sh

UbuntuとDebian

# 18.04 Bionic
$ curl -L https://toolbelt.treasuredata.com/sh/install-ubuntu-bionic-td-agent3.sh | sh
# 16.04 Xenial (64bit only)
$ curl -L https://toolbelt.treasuredata.com/sh/install-ubuntu-xenial-td-agent3.sh | sh
EOLバージョンのレガシーサポートは引き続き利用可能です
# 14.04 Trusty
$ curl -L https://toolbelt.treasuredata.com/sh/install-ubuntu-trusty-td-agent3.sh | sh
# 12.04 Precise
$ curl -L https://toolbelt.treasuredata.com/sh/install-ubuntu-precise-td-agent3.sh | sh
# Debian Stretch (64-bit only) $ curl -L https://toolbelt.treasuredata.com/sh/install-debian-stretch-td-agent3.sh | sh
# Debian Jessie (64-bit only)
$ curl -L https://toolbelt.treasuredata.com/sh/install-debian-jessie-td-agent3.sh | sh
# Debian Squeeze (64-bit only)
$ curl -L https://toolbelt.treasuredata.com/sh/install-debian-squeeze-td-agent2.sh | sh

Amazon Linux

Amazon Linux 1またはAmazon Linux 2を選択できます。Installing td-agent on Amazon Linuxを参照してください。

MacOS X 10.11+

$ open 'https://td-agent-package-browser.herokuapp.com/3/macosx/td-agent-3.1.1-0.dmg'

MacOS X 10.11.1(El Capitan)では、いくつかのセキュリティ変更が導入されました。td-agentをインストールした後、/Library/LaunchDaemons/td-agent.plistファイルを編集して、/usr/sbin/td-agentを**/opt/td-agent/usr/sbin/td-agent**に変更してください。

Windows Server 2012+

Windowsのインストールには複数の手順が必要です。次のドキュメントに記載されている手順を完了してください:

Opscode Chef (repository)

リポジトリの詳細を参照できます。

$ echo 'cookbook "td-agent"' >> Berksfile
$ berks install

AWS Elastic Beanstalkもサポートされています。Windowsはサポートされていません。

/etc/td-agent/td-agent.confの変更

次に、apikeyオプションを設定してAPIキーを指定します。TD ConsoleのプロフィールからAPIキーを取得できます。td-agent.confファイルにapikeyオプションを設定します。

# Treasure Data Input and Output
source
  type forward
  port 24224
</source>
<match td.*.*>
  type tdlog
  endpoint api.treasuredata.com
  apikey YOUR_API_KEY
  auto_create_table
  buffer_type file
  buffer_path /var/log/td-agent/buffer/td
  use_ssl true
</match>

YOUR_API_KEY should be your actual apikey string. You can retrieve your API key from your profiles in TD Console. Using a write-only API key is recommended.

次の行が配置されたら、エージェントを再起動します。

# Linux
$ sudo /etc/init.d/td-agent restart

# MacOS X
$ sudo launchctl unload /Library/LaunchDaemons/td-agent.plist
$ sudo launchctl load /Library/LaunchDaemons/td-agent.plist

td-agentは、ポート24224を介してデータを受け入れ、データをバッファリングし(var/log/td-agent/buffer/td)、自動的にデータをクラウドにアップロードします。

td-logger-javaの使用

まず、build.sbtに次の行を追加します。ロガーのリビジョン情報は、CHANGES.txtで確認できます。

オールインワンjarファイルが必要な場合は、http://central.maven.org/maven2/com/treasuredata/で提供しています。

/* in build.sbt */
// Dependencies
libraryDependencies ++= Seq(
  "com.treasuredata" % "td-logger" % "${logger.version}"
)

次に、次のコマンドを使用してtreasure-data.propertiesファイルを設定します:

td.logger.agentmode=true
td.logger.agent.host=localhost
td.logger.agent.port=24224
td.logger.agent.tag=td

最後に、次の行をアプリケーションに挿入して、初期化してレコードを投稿します。APIの詳細情報を参照できます。

import java.util.Properties
import com.treasure_data.logger.TreasureDataLogger
import scala.collection.JavaConverters._

object Main {
  def main(args: Array[String]) {
    var props = System.getProperties();
    props.load(getClass.getResourceAsStream("treasure-data.properties"));
    var LOG = TreasureDataLogger.getLogger("test_db");

    var map = Map("from" -> "userA", "to" -> "userB");
    LOG.log("follow", map.asJava.asInstanceOf[java.util.Map[String, java.lang.Object]]);
  }
}

この例では、次の構造を想定しています。

  • project_dir/build.sbt
  • project_dir/src/main/scala/Main.scala
  • project_dir/src/main/resources/treasure-data.properties

データインポートの確認

まず、前述のプログラムを実行します。

$ sbt compile run

SIGUSR1シグナルを送信すると、td-agentのバッファがフラッシュされます。アップロードはすぐに開始されます。

# Linux
$ kill -USR1 `cat /var/run/td-agent/td-agent.pid`

# MacOS X
$ sudo kill -USR1 `sudo launchctl list | grep td-agent | cut -f 1`

データのアップロードを確認するには、td tablesを使用します。

$ td tables
+------------+------------+------+-----------+
| Database   | Table      | Type | Count     |
+------------+------------+------+-----------+
| test_db    | follow     | log  | 1         |
+------------+------------+------+-----------+

本番デプロイメント

td-agentの高可用性構成

高トラフィックのウェブサイト(5つ以上のアプリケーションノード)の場合、td-agentの高可用性構成を使用して、データ転送の信頼性とクエリのパフォーマンスを向上させます。

td-agentの監視

td-agent自体の監視も重要です。td-agentの一般的な監視方法については、次のドキュメントを参照してください:

td-agentは、Fluentdプロジェクトの下で完全にオープンソース化されています。

次のステップ

従来のRDBMSよりも柔軟なスキーマメカニズムを提供しています。クエリには、HiveおよびPrestoクエリ言語を活用しています。