May 11, 2016

『詳解 Apache Spark』出版記念イベントに参加しました

最近はSparkに触れていなかったのですが、日本語の情報も豊富になってきたのを感じました。 自分も書きたい。 ブログネタでやるかなあ。と思った一日でした。 データ分析業界の理想と現実 - Spark普及の歴史を添えて(下田倫大さん) Spark登場時に私は夢とロマンを見ました! 現実は厳しい・・・。 ガンガン使おう 2013年: 大規模データ処理といえばHadoopで集計 2014年: Sparkとの出会い, インドで使ってた 第一印象: Python, Rのインターフェースがある! 2015年: ブレインパッド社としてビジネスモデル的にSparkのメリットが大きくない コンサル/SI は新しい技術導入が遅くなりがち ニーズが必要 DeltaCubeという自社開発プロダクトで導入 案件が効率化からイノベーションに変化 データマネジメントツールDeltaCubeでのSpark利用(師岡一成さん) 2014年に触り始めた 2015年に本格的に DeltaCube: プライベートDMPのログからセグメントを作成ツール 2014年に開発が始まり、リリースまで2年ぐらいかかった 初期 行動ログを手動で検索して、セグメントを作成 データサイズは数TB, presto, impalaを使った 中期(2015年) * 機能的にマニアック路線 広告運用の手間がかからないようにしたい 自動でユーザをクラスタリング(DeltaCube) Rtosterで自動ABテスト ETL, MLlib Read more

December 19, 2014

Japan.R 2014を支える技術

R Advent Calendar 2014の18日目担当です。 12月6日にJapan.R 2014が開催されました。 総勢250名を超える方に参加して頂いて非常に嬉しいです。@0kayuさんを始め、会場提供およびスポンサーになって頂いたフリークアウトさん、 当日に手伝いをしてくれた方々、ありがとうございます! Japan.R 2014を開催するまでの話を書きます。 主催の一人に選ばれる ヤフー株式会社で開催されたJapan.R 2013での二次会後に、 主催の@holidayworkingさんに無茶振りされました。その時にいた@0kayuさんも巻き添え?になってしまいました。 2010年のJapan.Rに参加して以来、頻繁にTokyo.Rに参加していてRコミュニティに貢献したかったので、受けることにしました。 開催準備 6月頃に、12月6日にフリークアウトで開催することを決定 7月に参加して勉強会の懇親会で、パネルディスカッションのアイディアを頂く パネラー探しを始める。最終的に決まったのは9月下旬 30分枠の発表をお願い出来た 7月に オプトの@shsaixさん フリークアウトの@yanaokiさん 後に RCOの@TJO_datasciさん @teramonagiさんや@dichikaさんの紹介で@AriLamsteinさん 8月のTokyo.RでLTの募集を開始する(google docsのフォームを利用) 開催内容を紹介する。http://www.slideshare.net/yurieoka37/japanr 10月にフリークアウトさんがスポンサーになってくれることが決まった。ありがとうございます! 10月下旬にATNDをたてる Bar doradoraのお願いをする 11月上旬に@0kayuさんとピザを食いながら、パネルディスカッションの内容を打ち合わせ。ピザ生地が旨かった。 11月下旬に某社の会議室を貸して頂いて、パネラーの皆さんに集まってもらってパネルディスカッションの内容を打ち合わせ 12月始め レガラートで食べ物を注文 パネルディスカッション用のマイクをレンタル 二次会のエイトを予約 当日 11:15に当日スタッフの集合 会場の準備 Read more

August 4, 2014

「TokyoWebmining Hackathon

TokyoWebmining Hackathon #1に参加してきました。ハッカソンとしては3度目の参加になります。 このハッカソンでは、Home’sより提供されたデータでリコメンドエンジンを作るというものでした。予めチームを組んで参加する人が多い中、僕はソロで参加しました。当日にチームを組んだのですが、互いにソロで参加した人で構成されました。 ハッカソンに参加するたびに感じるのは、事前準備の重要さです。既に分析環境が出来上がっている人から環境構築を始める人までいて、作業開始時間に差が出てしまいます。また、手元のノートパソコンは、十分な計算速度ではないので、分析サーバが必須になります。 分析時間が足りない事は目に見えていたので、一番シンプルなモデルを作り、残り時間で改良していく方式をとったおかげで、Home’sさんが用意したスコア計算において、一番高得点になりました。 今度ハッカソンに参加するときは、分析環境とモデル構築コードを予め準備しておき、データを投げるだけにしておきたいと思いました。第2回の開催を楽しみにしてます。

December 14, 2013

gepuro流☆変数名の付け方

R Advent Calendar 2013の14日目担当のgepuroです。この記事の内容は、Japan.R 2013の飛び入りLTで話した内容です。 変数名の付け方 irisというデータセットを例にします。 read.csv()をする時 ファイル名と変数名を同じにしておく。 ファイル名に日本語が含まれる場合は、英語にするかヘボン式で。 iris <- read.csv("iris.csv") subset()をする時 subsetした時の条件をドットで繋ぐ iris.setosa <- subset(iris, iris$Species == "setosa") iris.SepalLength6m <- subset(iris, iris$Sepal.Length > 6) iris.SepalLength6me <- subset(iris, iris$Sepal.Length >= 6) iris.SepalLength6l <- subset(iris, iris$Sepal.Length < 6) より大きいはmoreの”m”、より小さいはlessの”l”、イコールを含む時は、”e”を付ける。 #### mergeする時は、_で繋ぐ data1_data2 <- merge(data1, data2, by="id", all=T) コードを見たまんまです。 データの形が変わったら、変数名を付け直す syukei <- table(iris$Species) aggregate()やreshape()などを使うときも同様です。 変数名が長くなってきて、コードが見づらくなったら、付け直す なるべく変数名を付け直したくないけど、我慢できなくなる事がある。 まとめ 自己流の変数名の付け方を紹介しました。これがベストだとは思っていないですが、他の人とコードを共有したり、自分でデータを解析していく時の戸惑いが少しは軽減できると思います。また、前処理のコードを別のファイルにしておく事もオススメです。 Google流のコーディングスタイルは、Google’s R Style Guideをご参照ください。

November 10, 2013

dentoo.lt

Xaro Cydeyknさん, A Rough Introduction to PythonTeX pythontex,Sympyを使おう。 5歳の幼稚園児から、積分を解きたいというお便りがきた。 ロクロさん, えーしー 無線LANの規格 IEEE 802.11 ac,5GHz帯を利用 チャネル数が19 MIMO方式の拡張、複数のアンテナを使用する。11nは、4x4。11acは、8x8。 ルータやPCは、2x2、スマホは1x1 理論値は足し算ではなく、掛け算 5GHzは空いている komekome09さん,CygwinにRuby on Railsを入れようとした話 cygwinにrailsをインストール gitを使ったりして、rubyのインストール。 cygwinの64bitを使うな。 railsのインストールが来なかった。 参加者から LANG=Cすると上手くいくこともある。 ねおねおさん,出席管理4クズ 美大生です。 出席管理4クズというアプリケーションを作った。 使いやすいアプリがなかった クズレベル搭載 連続欠席でボーナスポイント 後期が始まると、インストール数が増えた ponkotuyさん,艦これHacking ネットワーク調査 全パケット通信を取得してFilter Read more

October 13, 2013

第34回R勉強会@東京(#TokyoR)で発表してきました。

以下がその時に利用した資料です。 他の発表者の資料(見つけ次第、追記します。) アクションマイニングを用いた最適なアクションの導出 from sfchaos Google's r style guideのすゝめ from Takashi Kitano Tokyo.R女子部#2「RMeCabを使おう」 from Sachiko Hirata StanTutorial from Teito Nakagawa 10分で分かるr言語入門ver2.4 from Nobuaki Oshiro

July 20, 2013

Tokyo.R#32の気になった

気になったスライドをベタ張り Tokyor32 network analysis from Mitsunori Sato 質的変数の相関・因子分析 from Mitsuo Shimohata 本とかブログとか Data Journalism Handbook データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) [統計][リスク] “相関”の話&そのついでに”21世紀の相関(MIC)”の話(ややマニア向け 順序尺度の相関係数(ポリコリック相関係数)について

April 14, 2013

Dentoo.LT

飛び入りLT @kazoo04 “圧縮アルゴリズムZopfli” Googleが今年開発した圧縮アルゴリズム zip互換、圧縮率が高い 詳しくはRFC1951 LZSS, 表記方法は複数ある。 Huffman いろんな条件を何度も試して、一番良いものを採用する。 BlockSplitter itochan (@i315)さん “Bitcoinでお金を稼ぐ” itochan.jp Bitcoin:P2Pでやりとりする電子マネー 通貨の供給に規制されない 通貨の生み出し方:ユーザが生成する。マイニング ブロックと呼ばれる通貨の単位 Bitcoinは稼げないのでやめましょう。 彼女ほしい @akuraru “MVCのすすめ” iOSアプリつくってる。 Scala好き バグを減らしたい。テストがしたい。仕方が分からない。 レイアウトを作る。アクティビティ テストできる 情報処理 情報操作 Model-View-Controllerの略 モデルとプレゼンテーションの分離 型保証でおk @4xz fourxz さん “貸した本が返ってくるLT” まさかのブルースクリーン Read more

April 14, 2013

Dentoo.LT

その3です。 @yosida95 さん “自宅VPSのススメ。” http://yosida95.com/ 自宅にサーバはありますか? 自宅でVPSは運営していますか? ホスト型、ハイバーバイザ型 Scientific Linux(第一世代)、Ubuntu Server(第二世代) 仮想化環境 KVM,QEMU+libvirt AMX-V, Intel-VT コントロールパネル、Pyramidを使った ミドルウェア,MySQL,Kestrel,noVNC(ウェブブラウザだけでVNCを実行できる) サーバーリソースが余ってる。仮想化しよう。web上から制御したい 思い立ったらすぐに仮想マシンが作れる ハッカソン専用サーバー プロダクト専用のサーバー 分散システム実験し放題,Riak,自作分散KVSとか yosida95’s ServerはOSSではありません。 OpenStack使いましょう。 ここまでは余談です。 mixslide.com の展望、yosida95,oidong1, 2013/01/03に公開 複数のスライドを一箇所にまとめられる。 誰でも編集 編集履歴を見られる 今後:検索機能、ユーザの投稿スライド一覧、デザイナーのインターフェース実装待ち インフラ的浸透 タイムアップ @catatsuy さん “Markdown to LaTeX” 卒業したい Read more

© gepuro 2013