IPA


開発成果一覧へ





2005年度上期 未踏ソフトウェア創造事業  採択案件評価書


 



1.担当PM

   原田 康徳 (NTT コミュニケーション科学基礎研究所 主任研究員)



2.採択者氏名


開発代表者

若松 桜男 (有限会社ソフトポート 代表取締役)

共同開発者

なし


3.プロジェクト管理組織


  NTT出版株式会社



4.委託金支払額


  4,350,000



5.テーマ名


  Webデータ対応リアルタイムデータマイニングツールの開発



6.関連Webサイト


  http://www.softport.co.jp/ 、 http://datamine.jp/



7.テーマ概要


 
Webデータに対応した重回帰分析によるデータマイニングツール(本ソフト)を開発した。分析の対象となる表データを、PCのディスクだけでなく、インターネットから簡単な操作で入手して本ソフトに取り込めるようにした。また、各種の表データのフォーマットに対応し、取り込めるデータの範囲を広げることができた。さらに、プロジェクトファイルに記述するだけで、ネットからのデータの収集、簡易なデータ補正、分析処理、分析結果の文書化、予想モデルのアップロードまでの一連の処理を、自動実行できるようにした。また、分析処理の高速化も実現した。



8.採択理由


 
日々更新される膨大なWebデータを利用したデータマイニングツールの開発.現有するデータマイニングツールは汎用すぎて,とても手軽に使えるようなものではない.それを現場でも使えるように身近で実用性を重視したシステムとして開発する.
  Web上のデータを自動的に抽出する技術はすでに開発済みである.またデータマイニング自身の方法にも独自性があり興味深い.教科書的なマニュアルを外注する点を追加し,これとセットでデータマイニングの普及にも一役買うだろう.



9.開発目標


 大量のデータから、隠れた有益な情報(規則性、法則性、因果関係など)を導いたり、予測モデルの作成や最適制御を行う方法として、最近データマイニングという手法が注目され始め、特にビジネス、経済、医療の各分野でその有効性が認められているが、一般にはあまり普及していないのが現状である。
 普及を阻んでいる理由として、費用的な面(ツール:1本数万円から数千万円、分析サービス:1ヶ月数百万円〜数千万円)と、従来のデータマイニングツールでは、それを扱うには統計の専門家やプログラミング力が必要であり現場の担当者が気軽に使えない場合が多いという事情があると思われる。隠れているかもしれない知識を探すことには、お金は出せないということだと思う。
 また、Web上の膨大なデータの中には、今まで気が付かなかった知識が隠れている可能性が高いが、Webから<TABLE>タグ内の表データを含め多様な形式のデータを収集できるデータマイニングツールは見当たらない。

 そこで、マクロやプログラムは一切不要のバカチョン式で、Webの各種形式の表データにも対応し、実用に耐えるサイズのデータ(エクセルレベル以上)が扱えるソフトを開発して一般に公開できれば、データマイニングが普及するのではないかと考えた。
 本ソフトはSAS社やSPSS社などから出されているような統合的なツールを目指すのでは無く、一般の人が気軽に買えて、気軽に使えて、データマイニングを楽しめるツールを目指す。データマイニングの手法としては、当面は利用頻度の高い予想系の重回帰分析と相関ルール(連関規則、バスケット分析とも言う)を採用し、将来はニューロ機能なども追加する予定である。



10.進捗概要


 実現できなかった機能もあるが、全般としては、重回帰分析を利用したデータマイニングツールを作るという目標はある程度は達成できたと思う。
 Web上のデータをプロトコル(HTTP、FTP)によらず、簡単な操作で分析データとして取り込める機能や、各種のファイル形式に対応する機能はほぼ実現できたと思う。取り込めるファイルの形式としては、一般的なCSVやTSV だけでなく、HTMLファイルの<TABLE>タグによる表データにも対応した。
 統計やプログラミングの知識が無い人でも容易に操作できる機能の実現はできたと思う。ユーザはマクロやプログラムは使わずに、ドラッグ&ドロップや画面上の簡単な操作だけでデータの入力から分析・結果の出力まで全て可能である。
 Webアプリと連携して本ソフトを利用できることを示すために、簡単なWebアプリを作成(現在も実際に運用中)し、統計など全く知らない人でもそのシステムに参加することで楽しくデータマイニングの雰囲気を理解できるようにした。データマイニングの認知度を少しでも上げられれば良いと思う。
 また、目標では無かったが、最適モデルを自動選択する際の独自の高速化ロジックを今回さらに改善できたのは、1つの成果だと思う。
 ただ、「フィードバック機能の汎用化」、「過去と将来での推定値を検証する機能の汎用化」、及び「有益な相関ルール(連関規則)を簡単に抽出できる」についてはマンパワー不足で実現できなかったので、これらは今後の作業の中で実現させる予定である。



11.成果


 1 【統計の専門家が不要な簡易なインターフェースとし、マクロやプログラミングが不要で、現場の担当者が容易に予測モデルの作成とそれを使ったシステムを構築できる。】


 本ソフトでユーザが操作しなければならない対象は、通常(個別実行の場合)は起動画面とそれから出される案内画面への応答だけである。分析対象データは次のような簡単な操作で、格納場所(ネット、PC)やフォーマットなどをあまり意識せずに取り込むことができる。取り込み後の分析から予想モデルの作成、分析結果の簡単な解説文出力までを本ソフトが一気に処理する。そのため、ユーザはマウスで予想対象列を指定するだけで、膨大なデータから傾向や法則などを容易に得ることができる。

 (1)ファイルを画面上にドラッグ&ドロップ(D&D)
 表データのファイルをエクスプローラから本ソフトの画面上にD&Dすることでデータを入力できる。その際、メニューで「auto/自動認識」を指定しておくと、CSVファイル(カンマ区切り)とTSVファイル(タブ区切り)は拡張子によらず自動認識で読み込める。特殊な区切り文字を使用している場合には、区切り文字を指定しておくことで読み込む事が可能である。

 (2)インターネットショートカット(拡張子:'.URL')をD&D
 ブラウザの「お気に入り」は、インターネットショートカットの形式で保存されているが、これをブラウザから本画面上に直接D&Dすると、本ソフトの通信機能が自動的に働いてネット上からファイルを受信して本ソフトに取り込まれる。

 (3)「貼り付け」機能を利用
 他のソフトからコピー&ペーストで表データをダイレクトに貼り付けることができる。例えば、表計算ソフトやエディタ上で表データをコピー([Ctrl]+[C])しておき、本ソフト上で貼り付け([Ctrl]+[V])することにより、データが入力される。

 (4)プロジェクトファイルを利用
 本ソフト専用のプロジェクトファイル(拡張子:'.DPR')に、ネットから収集すべきファイル名(複数可)やFTPパスワード等を事前に記述しておくことにより、毎回同じ場所からデータを取り込む場合には便利である。プロトコルは、HTTPとFTPに対応しており、表データのネット上のURLやFTPパスを記載しておくことで、本ソフトがプロトコルを判別してネット上からデータを受信できる。

 (5)既存の表収集ソフト「<Table>バインダ」との連携
 本ソフトには「<Table>バインダ」との連携機能があり、これを利用して、HTMLファイル内の<Table>タグ内の表データを分析データとして入力できる。

 なお、「現場の担当者が容易に予測モデルの作成とそれを使ったシステムを構築できる機能」については、10 【Webアプリの作成】項で、それが可能であることを構築事例で述べる。但し、どんな場合でも実現できるというわけではなく、前処理(クレンジング)がほとんど不要なデータを出力するアプリケーションとの連携に限られる。

 

 2 【予測因子をAIC法等により適切にかつ自動的に選択し、予測信頼性の高いモデルを作成できる。】


 説明変数同士の相関が強いデータが存在する場合、多重共線性の関係でそのまま分析すると予測信頼性が落ちるが、本ソフトでは重回帰分析処理の前に相関の強いデータの一方を自動的に外し、さらにAIC法と変量増加法の組み合わせで多重共線性を避ける工夫がされている。
 この機能は本プロジェクト以前に専用ソフトで実現していたが、今回はこの汎用化のための開発作業を行った。

 3 【予測モデルの作成時以降の実測データで検証し、これを予測モデル選定にフィードバックできる。】


 フィードバック機能自体は開発済みであり、これを汎用化して本ソフトに取り込む予定であったが、開発作業に取り掛かることができなかった。今後、早急に実現させるつもりである。

 4 【予測モデルの性質に応じて過去への検証結果と将来への検証結果の重み付けを任意に設定できる。】


 前項と同様に未達成である。今後、早急に実現させるつもりである。

 5 【増大し変動する過去データに即応して最適な予測モデルを自動作成できる。】


 10 【Webアプリの作成】項で、それが可能であることを構築事例で述べる。但し、どんな場合でも実現できるというわけではなく、前処理がほとんど不要なデータを出力するアプリケーションとの連携に限られる。
 データマイニングの場合、通常は膨大なデータを対象とするので、扱えるデータサイズの許容量が重要になってくるが、従来のツールでは、フィールド数(列数)とデータ数(行数)に制約がある場合が多い(例: 「データマイニングソフト」 )。本ソフトの場合は、入力データの理論上の制約はなく、メモリに乗るだけのデータ量を扱える。

 6 【HTML,CSV,TSVなど様々なファイル形式で存在する表データをインターネットやディスクなどから

   媒体を選ばず、収集できる。】


 1【統計の専門家が・・・】 項で述べたとおりであり、目標は達成できたと思う。ここでは説明を省略する。

 7 【解析結果に悪影響を及ぼす異常データや欠損データを除去・補完できる。】


 数字以外のデータが入っている行を自動的に除外する機能は実現したが、完全な形での前処理(データクレンジング)は未達成である。今後、早急に実現させるつもりである。

 8 【予測モデルの更新作業を自動化し、人手を要しない。】


 開発成果は、10 【Webアプリの作成】項に述べるとおりで、目標は達成できたと思う。ここでは省略する。

 9 【有益な相関ルール(連関規則)を簡単に抽出できる。】


 (当初の予定にはなかったが、実施計画作成直前に追加した機能である。)
 未達成である。今後、早急に実現させるつもりである。

 10 【Webアプリの作成】


 (当初の予定にはなかったが、途中で計画に追加した機能である。)
 Webアプリと連携して本ソフトを利用できることを示すために、簡単なシステムを作成(現在も稼動中)し、統計など全く知らない人でもそのシステムに参加することでデータマイニングの一端がわかるようにした。
 それが、「当たるも八卦」(Web側TOP画面 http://datamine.jp/ )というシステムである。全体としてはWebアプリ側(データ蓄積)と、リモートPC側(予想モデル作成)の連携動作で動いている。

 アンケート入力画面は、資料:「アンケート画面.htm」のとおりである。ここで入力されたデータ(説明変数)を、リモートPC側から送信された予想式に代入して算出された推定値の表示画面は、資料:「当たるも八卦くん」の予想結果画面.htm である。推定値が的中していればそのまま、外れた場合は訂正された値が(従属変数として)Web側のファイルに追加される。
 このデータを、本ソフトに取り込み、分析して予想式(つまり偏回帰係数と定数項)を決定し、その係数ファイルをWebサーバーに送信する。この取り込みから送信までの一連の流れは、ユーザがプロジェクトファイルで指定しておく。
 なお、分析時に自動出力された内容は、分析結果(予想モデルと解釈).txt である。この本ソフトの機能を利用すれば、Web対応の分析予想系のシステムを構築する場合に、ユーザはWeb側のアプリを作成するだけで良い。但し、前処理がほとんど不要なデータを吐き出すようにWebアプリを作成しておく必要がある。

 

 11 【教科書的なマニュアルを作成する】


 (当初の予定にはあったが、途中で計画から削除した項目である。)
 開発スケジュールより遅れで、本ソフトで実現する機能が固まらないため、外注先にマニュアルの記載内容を示すことが出来なくなったため、本項目は取りやめることになった。



12.プロジェクト評価


 ■多様な形式のWebデータを取り込める。
 Webから<TABLE>タグ内の表データを含め多様な形式のデータを簡単な操作で収集できる。

 ■ Webアプリとの連携機能がある。
 本ソフトを分析、通信部品として利用すると、Web側のアプリ開発とプロジェクトファイルの作成だけで分析・予想系のWebシステムを容易に構築できる。

 ■ 操作が簡単である。
 データ入力から分析結果の出力までの操作は、@D&D、A[編集]ボタンクリック、B予想対象列クリック、及びC[個別分析]ボタンクリックだけである。
 ※Bの表画面では、必要に応じて表やデータを修正できる。

 ■分析結果を文章で出力する。
 重回帰分析の結果を簡単な文章で出力する。

 ■ 分析計算が高速である。
 最適なモデルを自動選択するための独自のロジックを採用し、今回、これをさらに改善した。詳細は「分析処理の独自高速化」に記載した。



13.今後の課題


 「フィードバック機能の汎用化」、「過去と将来での推定値を検証する機能の汎用化」、及び「有益な相関ルール(連関規則)を簡単に抽出できる」については今回の期間内には実現できなかったが、今後これらをできるだけ実現して製品化する予定である。前処理(データクレンジング)の機能についてはデータマイニングツールの重要な要素であり、今回は簡易な機能しか実装できなかったので最優先でこれに取り組む予定である。
 また、目標を達成したと書いた機能についても、製品としては不十分な点が多々あるため改善・修正をしたいと思う。
 スケジュールとしては、5月のIPAx2006 に照準を合わせて全力で開発作業を進めたいと思う。製品レベルになり次第、Web上に公開し本ソフトの普及を図りたい。また、将来的にはニューラルネットワーク機能なども取り入れていきたいと思う。


  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004