May 11, 2016

『詳解 Apache Spark』出版記念イベントに参加しました

最近はSparkに触れていなかったのですが、日本語の情報も豊富になってきたのを感じました。 自分も書きたい。 ブログネタでやるかなあ。と思った一日でした。 データ分析業界の理想と現実 - Spark普及の歴史を添えて(下田倫大さん) Spark登場時に私は夢とロマンを見ました! 現実は厳しい・・・。 ガンガン使おう 2013年: 大規模データ処理といえばHadoopで集計 2014年: Sparkとの出会い, インドで使ってた 第一印象: Python, Rのインターフェースがある! 2015年: ブレインパッド社としてビジネスモデル的にSparkのメリットが大きくない コンサル/SI は新しい技術導入が遅くなりがち ニーズが必要 DeltaCubeという自社開発プロダクトで導入 案件が効率化からイノベーションに変化 データマネジメントツールDeltaCubeでのSpark利用(師岡一成さん) 2014年に触り始めた 2015年に本格的に DeltaCube: プライベートDMPのログからセグメントを作成ツール 2014年に開発が始まり、リリースまで2年ぐらいかかった 初期 行動ログを手動で検索して、セグメントを作成 データサイズは数TB, presto, impalaを使った 中期(2015年) * 機能的にマニアック路線 広告運用の手間がかからないようにしたい 自動でユーザをクラスタリング(DeltaCube) Rtosterで自動ABテスト ETL, MLlib Read more

© gepuro 2013