セミナーレポート

SNSにおけるビッグデータの収集と解析

情報処理学会主催「ビッグデータとスマートな社会」第4回を取材

2012/10/25

 情報処理学会は2012年10月10日、情報処理学会主催「ビッグデータとスマートな社会」第4回を開催。Twitterなどのソーシャルメディア(SNS)のユーザや情報を可視化するネットワーク構造を分析する講演が行われた。

SNSとビッグデータの収集
に関心の高い参加者が集まった
SNSとビッグデータの収集に関心の高い参加者が集まった

Twitterから関係性を可視化


 東京大学大学院工学研究科准教授の鳥海不二夫氏は、ソーシャルメディアにおけるデータ収集と分析に関して講演を行った。鳥海氏はTwitterやmixiといったソーシャルネットワーク上のコミュニケーションの情報から、その関係性などの可視化について研究を行っている。なかでも鳥海氏はTwitterを重視。これは各ユーザの投稿はすべてのユーザに公開され、APIによるデータの収集が比較的容易だからだ。


 さらに鳥海氏はその手法を使って、ユーザにおける日本語のツイートを収集。このTwitterのデータ収集についてはTwitter APIというTwitter社が提供するデータアクセス用APIを利用する。これによりユーザのツイートやプロフィールなど、多くのデータへのアクセスが可能となる。


 このように収集したデータから実際にネットワークを構築していく。その際ユーザをノード(ネットワークを構成するひとつひとつの要素)とし、実際にユーザがコミュニケーションを行った関係をリンク(線)として表示させる。Twitterの場合、フォロー/フォロワーの関係性やリプライ/リツイート関係のように実際にコミュニケーションをとった軌跡が、リンクとされユーザ同士の関係を表すことになる。


 さらに、ノードから出ているリンクの数を「次数」として換算する。このようにノード、リンク、次数で表すことで、Twitter上で行われたコミュニケーションを可視化していくといったものだ。

東京大学大学院工学研究科准教授 鳥海不二夫氏氏   NTTサービスエボリューション研究所
松林達史氏
東京大学大学院工学研究科准教授 
鳥海不二夫氏
  NTTサービスエボリューション研究所
松林達史氏

グラフ可視化手法の紹介


 鳥海氏の解説した可視化の手法は、Twitter上の動きをより詳細に把握するために応用され、研究されている。NTTサービスエボリューション研究所の松林達史氏はSNSに表示されるキーワードの関連性をネットワークとして表現し、データの全体構造の俯瞰などに利用される「グラフ可視化」という手法を紹介した。同手法を使い、あるキーワードに関する別のキーワードを、関係性の高低で配列。ロングテール(数多く存在するニッチな分野)の話題も含め「SNS上にリアルタイムで、どんな話題がどんな関連性をもっているのか」について全体を俯瞰することができるという。


 松林氏はTwitterのストリーミング情報の変化をリアルタイムに可視化し、パラメータの変更も可能な「リアルタイムグラフ可視化技術」について説明した。これはTwitterの出現回数上位のキーワードを収集。それに時系列処理を加えることでキーワードの出現頻度を座標で表し、その関連性が見えるようにするという仕組みだ。


 例えば東日本大震災当日、様々な公共機関が止まる中、JR東日本が「終日見合わせ」を発表したときは「帰宅困難」や「無料開放避難所」というキーワードがかたまりになって表示され、時間が経過すると「地下鉄」や「再開見込」というキーワードがかたまりになって表示される。このように「どんな話題がいつ表れているのか、その関係性はどうなのかを」についてリアルタイムに俯瞰することができる。


 松林氏は「数100万ツイートを時間毎に分析・表示し、大規模なデータの話題の俯瞰や、話題の時系列変化をよりわかりやすく可視化ができるように改良を重ねていきたい」と意気込みを語った。


放送メディアも分析する多メディアWEB解析


 また可視化の手法については東京大学、生産技術研究所の豊田正史氏も研究を行っている。豊田氏は、WEB、ブログ、Twitterといった複数のメディアにまたがる「同じ話題」について解析する「多メディアWEB解析」を行っている。同じ話題に関心をもつ人々や組織によって作成されたWEBページの集合を抽出し、あるWEBページについて他のWEBページにも存在する話題やリンク・ブックマークとの関連性を計算してネットワーク図として表示するといったものだ。これは220億URLものWEBページ画像、8億もの記事数をもつブログ、Twitterにおける70万人のユーザ・30億のつぶやきから抽出・分析されている。


 ブログや放送になどの話題の推移を「画像」から把握するといった手法もある。放送メディアやSNSで使われている画像を局所特徴における顔照合技術を用いて分類し、頻出する顔画像を抽出ラベル付与やランキング付けを行う。その結果、放送メディアやSNS上にどんな人物が話題になっていているかを時系列で追いかけることができる。


 豊田氏は「今後も様々な分野における多様な社会ニーズをくみ上げ、多様な社会分析ソフトウェアを構築していきたい」としている。


 SNSにおける情報を収集し、解析して可視化する技術は、SNS全盛となっている現在、非常に有望で関心の高い技術だろう。マーケティングをはじめ活躍の場は広い。今後の将来性を確信できるシンポジウムだった。

(山下雄太郎)

注釈

*:API(Application Programming Interface)
OSやアプリケーションの機能において、自身の機能の一部を外部のアプリケーションから簡単に利用できるようする仕様のこと。

【セミナーデータ】

イベント名
:ソーシャルメディアの大規模ネットワーク分析
 (「ビッグデータとスマートな社会」第4回)
主催   
:情報処理学会
開催日  
:2012年10月10日
開催場所 
:化学会館(東京都千代田区)

【関連カテゴリ】

トレンドその他