『プログラミング Hive』『Hadoop 第3版』刊行記念 Hadoopセミナー

この案内が届いた時に、開催がちょうど夏季休暇中なのに特に予定がなかったのと、なかなか出版に関わっている人の話は面白そうだったので、迷わず参加にクリックしました。

結果的に非常に満足でした。

内容も、難しくなく、本の中で特にポイントとなる最新の情報を中心に講義していただき、Hive及びHadoopを更に身近に感じられました。

Cloudera社の皆様、O'reillyジャパン社の皆様、特別講師(翻訳者)の玉川さま、事例紹介いただいた須田さま、非常に楽しい時間を過ごしました。ありがとうございました。次回も参加したいと思っています。

以下は、私のセミナーメモからまとめたものです。
(スライドが公開されたものは、リンクを貼っておきます)

１．Hiveの正しい使い方

<メモ>

Hiveをどう使う？
データが更新されない、応答要件が厳しくないケース
スキーマ・オン・リード
読み出す時に(定義した)スキーマに当てはめて結果を返す
外部テーブル
生データはそのまま(→RDBMSでいうところのビュー)
コレクションデータ型
いくつか種類があるが、詳細は資料に記載
SerDe(さーでぃー)
あらゆるデータ形式をHiveレコードに変換するI/F
Javaクラスを実装して、カスタム可能
Impala
HiveQLベース、C++で実装、Map/Reduce使わない、超高速
注意：Hiveの置き換えではない！！（欠点がある）
→試行中はImpala、方式が決まったらHiveという使い方が推奨

２．HiveとImpalaのおいしいとこ取り

<メモ>

CELLANT社でのHadoop活用について
長期間を対象にした個別ユーザイベント抽出(バッチ)
分析コンサルティグ（物流EC、デジタルコンテンツ販売など）
動画の閲覧ログ集計
Java使いでなくてもHiveで分析可能
BUT＞MapReduceの待ち時間が避けられない！！
Impalaベータテスト（結果はスライドに記載）
注意：Impalaはメモリを使い倒す→クラッシュも・・・
　　→mem_limitオプションで
1億行のログ：Hiveでは約250s、Impalaでは約16s
JOIN使い分け
基本は「partitioned join」
「broadcast join」が高速の場合あり（スキーマの大きさによる）
Hive Storage Format
RcFile＋Snappyは早いが、変換が遅い
使いやすいのは、テキスト＋gzipという今までの方法

３．翻訳の四方山話

<メモ>

翻訳の仕事ってのは
正確にやる！
読みやすさを追求！
本業があるので、平日は1Page程度、休日に一気に！
→10Pageを超えたあたりから、ランナーズハイみたいになる
翻訳した本（これまでに18冊）
最初はWindows関係が中心（仕事でも使ってた）
Jenkinsあたりから自分で出版社に翻訳企画を持ち込んだ
Hadoop、Hiveはご存知の通り
AWS、MongDBも
今後の予定
Hadoop Operations…運用本
Vasgrant…日本語版は独自の付録がある

４．高可用性HDFSのご紹介

<メモ>

HAがなぜ必要か
Name Nodeがダウンすると、HDFSへアクセスできなくなる
→NNは、単一障害点
高信頼性対策
①Stanby NN…手動でFO
②その後、自動フェールオーバーができるように
③Quorum Journal Manager（日本語版付録に記載）
QJMがないと、どうなるか？
①NFS上に編集ログを持つ必要がある
②アクティブ側のNNが完全に停止している必要がある
QJMのキーワード
Journal Node、エポック番号(アクティブNNの識別)

５．Cloudera UniversityとHadoop認定試験

<メモ>

おまけ

猫好きな老体気味SEの備忘録