とある解析がしたかったので,自作クローラーでニコニコ動画のコメントを取得し,とりあえず適当に可視化した.

ニコニコ動画のコメントといえば,情報学研究データリポジトリ ニコニコデータセットが有名だが,今回は最新のコメントが必要なのでクローラーを作成した.

コメントの収集方法

自作のクローラーを使って取得した.取得したクローラーのソースコードはGitHubにアップした.

大体2015/02/24-28にかけて取得した.取得の際は念の為少なくとも3秒間隔でアクセスするようにした.取得する動画については2014秋アニメ一覧のページに載っているアニメの過去放送分の動画のその時点での全てのコメントを取得した.収集したコメントは13,074,945件,ファイルサイズは2.2GBだった.

取得のログによると,なぜかダブってコメントを収集していたり取得漏れがあったりしたが,気にならない程度なのでとりあえず話を進める.GitHubにアップしたソースコードではそういったバグは多分取り除かれていると思う.

Bokehによる可視化

Bokeh(ボケェ)という,いかした名前のPythonのビジュアライゼーションのパッケージの存在を最近知ったので,収集したコメントデータでとりあえず試してみた.

面白い(?)例として,コメント中のプレミアム会員の割合を調べてみた.コメントにはpremium属性がついていて,そのコメントがプレミアム会員によるものかどうかがわかる.そこで,縦軸を「プレミアム会員によるコメント(プレミアムコメント)の数」,横軸を「全てのコメント(プレミアム,非プレミアム)の数」として,各動画をプロットしてみた.マウスオーバーで各点がどの動画に対応しているかが表示される.


上のグラフ

緑色の直線は「コメント数=プレミアムコメント数」を表す.緑色の直線の上に乗っているアニメが割とあることがわかる.

その他に描いたグラフは以下のIPython Notebookに載っている.

その他

今回作ったクローラーを使えば,例えば以下のようなデータも取れる.

参考文献



blog comments powered by Disqus

Published

01 March 2015

Tags