読者です 読者をやめる 読者になる 読者になる

猫好きな老体気味SEの備忘録

タイトル通り、不定期更新、基本猫の話題は奥さんのブログに他力本願

『プログラミング Hive』 『Hadoop 第3版』刊行記念 Hadoopセミナー

この案内が届いた時に、開催がちょうど夏季休暇中なのに特に予定がなかったのと、なかなか出版に関わっている人の話は面白そうだったので、迷わず参加にクリックしました。

『プログラミング Hive』 『Hadoop 第3版』刊行記念 Hadoopセミナー

結果的に非常に満足でした。

内容も、難しくなく、本の中で特にポイントとなる最新の情報を中心に講義していただき、Hive及びHadoopを更に身近に感じられました。

Cloudera社の皆様、O'reillyジャパン社の皆様、特別講師(翻訳者)の玉川さま、事例紹介いただいた須田さま、非常に楽しい時間を過ごしました。ありがとうございました。次回も参加したいと思っています。

以下は、私のセミナーメモからまとめたものです。
(スライドが公開されたものは、リンクを貼っておきます)


1.Hiveの正しい使い方

<メモ>

  • Hiveをどう使う?
    データが更新されない、応答要件が厳しくないケース
  • スキーマ・オン・リード
    読み出す時に(定義した)スキーマに当てはめて結果を返す
  • 外部テーブル
    生データはそのまま(→RDBMSでいうところのビュー)
  • コレクションデータ型
    いくつか種類があるが、詳細は資料に記載
  • SerDe(さーでぃー)
    あらゆるデータ形式をHiveレコードに変換するI/F
    Javaクラスを実装して、カスタム可能
  • Impala
    HiveQLベース、C++で実装、Map/Reduce使わない、超高速
    注意:Hiveの置き換えではない!!(欠点がある)
    →試行中はImpala、方式が決まったらHiveという使い方が推奨

スライド


2.HiveとImpalaのおいしいとこ取り

<メモ>

  • CELLANT社でのHadoop活用について
    長期間を対象にした個別ユーザイベント抽出(バッチ)
    分析コンサルティグ(物流EC、デジタルコンテンツ販売など)
  • 動画の閲覧ログ集計
    Java使いでなくてもHiveで分析可能
    BUT>MapReduceの待ち時間が避けられない!!
  • Impalaベータテスト(結果はスライドに記載)
    注意:Impalaはメモリを使い倒す→クラッシュも・・・
      →mem_limitオプションで
    1億行のログ:Hiveでは約250s、Impalaでは約16s
  • JOIN使い分け
    基本は「partitioned join」
    「broadcast join」が高速の場合あり(スキーマの大きさによる)
  • Hive Storage Format
    RcFile+Snappyは早いが、変換が遅い
    使いやすいのは、テキスト+gzipという今までの方法

スライド


3.翻訳の四方山話

<メモ>

  • 翻訳の仕事ってのは
    正確にやる!
    読みやすさを追求!
    本業があるので、平日は1Page程度、休日に一気に!
    →10Pageを超えたあたりから、ランナーズハイみたいになる
  • 翻訳した本(これまでに18冊)
    最初はWindows関係が中心(仕事でも使ってた)
    Jenkinsあたりから自分で出版社に翻訳企画を持ち込んだ
    Hadoop、Hiveはご存知の通り
    AWS、MongDBも
  • 今後の予定
    Hadoop Operations…運用本
    Vasgrant…日本語版は独自の付録がある

スライド


4.高可用性HDFSのご紹介

<メモ>

  • HAがなぜ必要か
    Name Nodeがダウンすると、HDFSへアクセスできなくなる
    →NNは、単一障害点
  • 高信頼性対策
    ①Stanby NN…手動でFO
    ②その後、自動フェールオーバーができるように
    ③Quorum Journal Manager(日本語版付録に記載)
  • QJMがないと、どうなるか?
    NFS上に編集ログを持つ必要がある
    ②アクティブ側のNNが完全に停止している必要がある
  • QJMのキーワード
    Journal Node、エポック番号(アクティブNNの識別)

スライド


5.Cloudera UniversityとHadoop認定試験

<メモ>

  • Clouderaデータアナリスト向けトレーニング
    3日間、10月に遂に日本語で開催予定!!
    Hive、Pig、Impalaなど
  • Data Science入門コースも準備中

スライド


おまけ