gepuro.net
gepulog

データ分析エンジニアによる備忘録的ブログ

似てない記事の推薦エンジンのバグを直した

先日より、各記事の下部に似てない記事を表示させていたが、記事によって表示されないものがあった。原因が分かったので、修正を行いました。

cos類似度を計算する時に、各記事の組み合わせを作成する箇所でバグがありました。 本来は、

itertools.permutations
とするところを、
itertools.combinations
としていました。

現段階では、A,Bの類似度とB,Aの類似度を二度計算しているので、記事の数が増えてくると修正を加える必要が出てきそうです。

参考:

第34回R勉強会@東京(#TokyoR)で発表してきました。

以下がその時に利用した資料です。

他の発表者の資料(見つけ次第、追記します。)

アクションマイニングを用いた最適なアクションの導出 from sfchaos

Google's r style guideのすゝめ from Takashi Kitano

Tokyo.R女子部#2「RMeCabを使おう」 from Sachiko Hirata

StanTutorial from Teito Nakagawa

10分で分かるr言語入門ver2.4 from Nobuaki Oshiro

「第1008回 ドキッ!分析屋だらけの、大ザーユー会」でLTをしてきました

以下が発表資料です。(一部修正を加えています。)

第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる from Atsushi Hayakawa

参加者からのコメントで、似てない記事を表示した方が面白いとあったので、order by descorder byに変更しました。

はじめてのパターン認識読書会 第四回

第四章の前半です。 手書きスライドです。

"第9回集合知プログラミング勉強会"でBad Data Handbookについて発表してきました

第9回集合知プログラミング勉強会で、Bad Data Handbookの紹介をしてきました。

この本は、読み物として非常に面白いので、興味を持った方は、是非読んでみると良いと思います。