デジタル人材の育成
スプログ監視サービスに対して、CGMの人手判定をする上で、対象CGMの質を信頼度つきで提示するシステムを開発することで、判定信頼度の低いグレーゾーンを明確にし、監視対象を絞って効率化するシステムを作る。本システムはビジネス展開を主目的としており、CGM監視サービスに実用的なシステムを開発することを想定している。自社ブログへの監視ビジネスは既に存在しており、運営会社規模へのビジネスを見込んでいるナビックスとの連携は既に確立している。
より具体的には、ナビックスで作業者を雇用して、このシステムを扱わせるような運用の仕方を想定し、監視対象のブログを入力することで、スプログ/非スプログの判定結果を、信頼度を付加して出力をする。この出力を信頼度において一定の閾値で高信頼度/低信頼度のグループにわける。高信頼度のグループは精度が95%以上となるようにして、作業者が監視をする必要がないようにする。低信頼度のグループのみを作業者が監視することで、システム運用の作業効率を高める。低信頼度への出力を25%以下に抑えることを開発目標とする。
開発手法の概要は、現在所属している筑波大学システム情報工学研究科の研究資源を受け継ぐ形で、日本語スプログデータセットとその分析プログラムを用いて、このデータセットをデータベース管理し外部公開しつつ、他の研究環境においても独自にデータの拡張作業ができるようなプラットフォームを完成させることである。
Web空間が質・量とも膨大なものになり、しかも検索技術も向上したことから、CGM(Consumer Generated Media)が商業利用の対象となり、ブログサイトの中にも、高い検索順位を得ることだけを目的とした“スパム”ブログ(スプログ)が多量に生まれてきている。これらのスプログをフィルタリングしてしまうための仕組みづくりには、高精度のスプログ検出ツールが不可欠である。このプロジェクトは、信頼度つきのスプログ判定ツールを開発して、スプログ監視ビジネスへの展開を図るものである。
スプログ判定を行うのに使われている手法は、人手によってスプログと判定したデータを集めて、そのデータセットを対象として特徴抽出を行い、学習させてフィルタを構成するというものである。こうしたフィルタの精度を95%にまであげたい、というのがこのプロジェクトの目標である。
提案者は既に、人手で110url×50キーワード=5500urlほどのスプログ・非スプログと判定されたデータを収集している。
そのデータをさまざまに調べてみて、スプログの周りのリンクの構造が、通常のブログのリンクとは際立った違いをもっていることを発見している。
このように、スプログと判定したものを集めたデータセットを使ってスプログを自動収集し、集まったデータそれぞれにそのスプログ「精度」を何らかの形で評価する。その精度が低いものを対象にして、人手をかけて判定をやり直す。こうして精度をあげるとともに、精度が上がったデータセットに対して、再び解析を行い、学習を行わせて、つぎのデータ収集にあたる。こうしたプロセスを継続的に行っていく。
得られているデータセットは、さらに様々に解析して、従来のスプログ素性に近い特徴を持つ新傾向のものや、新パターンのものを発見できるようにしていこうという計画である。きわめて実験的要素の高いものではあるが、これなしに、スプログ検出の精度をあげることはほとんど不可能でもある。未踏ユースの期間中にどれだけの発見ができるかが勝負である。開発者のこれまでの経験と知識のありったけをぶつけて成果を生み出してくれることを期待している。