| 
1 【統計の専門家が不要な簡易なインターフェースとし、マクロやプログラミングが不要で、現場の担当者が容易に予測モデルの作成とそれを使ったシステムを構築できる。】
本ソフトでユーザが操作しなければならない対象は、通常(個別実行の場合)は起動画面とそれから出される案内画面への応答だけである。分析対象データは次のような簡単な操作で、格納場所(ネット、PC)やフォーマットなどをあまり意識せずに取り込むことができる。取り込み後の分析から予想モデルの作成、分析結果の簡単な解説文出力までを本ソフトが一気に処理する。そのため、ユーザはマウスで予想対象列を指定するだけで、膨大なデータから傾向や法則などを容易に得ることができる。
(1)ファイルを画面上にドラッグ&ドロップ(D&D)
表データのファイルをエクスプローラから本ソフトの画面上にD&Dすることでデータを入力できる。その際、メニューで「auto/自動認識」を指定しておくと、CSVファイル(カンマ区切り)とTSVファイル(タブ区切り)は拡張子によらず自動認識で読み込める。特殊な区切り文字を使用している場合には、区切り文字を指定しておくことで読み込む事が可能である。
(2)インターネットショートカット(拡張子:'.URL')をD&D
ブラウザの「お気に入り」は、インターネットショートカットの形式で保存されているが、これをブラウザから本画面上に直接D&Dすると、本ソフトの通信機能が自動的に働いてネット上からファイルを受信して本ソフトに取り込まれる。
(3)「貼り付け」機能を利用
他のソフトからコピー&ペーストで表データをダイレクトに貼り付けることができる。例えば、表計算ソフトやエディタ上で表データをコピー([Ctrl]+[C])しておき、本ソフト上で貼り付け([Ctrl]+[V])することにより、データが入力される。
(4)プロジェクトファイルを利用
本ソフト専用のプロジェクトファイル(拡張子:'.DPR')に、ネットから収集すべきファイル名(複数可)やFTPパスワード等を事前に記述しておくことにより、毎回同じ場所からデータを取り込む場合には便利である。プロトコルは、HTTPとFTPに対応しており、表データのネット上のURLやFTPパスを記載しておくことで、本ソフトがプロトコルを判別してネット上からデータを受信できる。
(5)既存の表収集ソフト「<Table>バインダ」との連携
本ソフトには「<Table>バインダ」との連携機能があり、これを利用して、HTMLファイル内の<Table>タグ内の表データを分析データとして入力できる。
なお、「現場の担当者が容易に予測モデルの作成とそれを使ったシステムを構築できる機能」については、10 【Webアプリの作成】項で、それが可能であることを構築事例で述べる。但し、どんな場合でも実現できるというわけではなく、前処理(クレンジング)がほとんど不要なデータを出力するアプリケーションとの連携に限られる。
2 【予測因子をAIC法等により適切にかつ自動的に選択し、予測信頼性の高いモデルを作成できる。】
説明変数同士の相関が強いデータが存在する場合、多重共線性の関係でそのまま分析すると予測信頼性が落ちるが、本ソフトでは重回帰分析処理の前に相関の強いデータの一方を自動的に外し、さらにAIC法と変量増加法の組み合わせで多重共線性を避ける工夫がされている。
この機能は本プロジェクト以前に専用ソフトで実現していたが、今回はこの汎用化のための開発作業を行った。
3 【予測モデルの作成時以降の実測データで検証し、これを予測モデル選定にフィードバックできる。】
フィードバック機能自体は開発済みであり、これを汎用化して本ソフトに取り込む予定であったが、開発作業に取り掛かることができなかった。今後、早急に実現させるつもりである。
4 【予測モデルの性質に応じて過去への検証結果と将来への検証結果の重み付けを任意に設定できる。】
前項と同様に未達成である。今後、早急に実現させるつもりである。
5 【増大し変動する過去データに即応して最適な予測モデルを自動作成できる。】
10 【Webアプリの作成】項で、それが可能であることを構築事例で述べる。但し、どんな場合でも実現できるというわけではなく、前処理がほとんど不要なデータを出力するアプリケーションとの連携に限られる。
データマイニングの場合、通常は膨大なデータを対象とするので、扱えるデータサイズの許容量が重要になってくるが、従来のツールでは、フィールド数(列数)とデータ数(行数)に制約がある場合が多い(例:
「データマイニングソフト」 )。本ソフトの場合は、入力データの理論上の制約はなく、メモリに乗るだけのデータ量を扱える。
6 【HTML,CSV,TSVなど様々なファイル形式で存在する表データをインターネットやディスクなどから
媒体を選ばず、収集できる。】
1【統計の専門家が・・・】 項で述べたとおりであり、目標は達成できたと思う。ここでは説明を省略する。
7 【解析結果に悪影響を及ぼす異常データや欠損データを除去・補完できる。】
数字以外のデータが入っている行を自動的に除外する機能は実現したが、完全な形での前処理(データクレンジング)は未達成である。今後、早急に実現させるつもりである。
8 【予測モデルの更新作業を自動化し、人手を要しない。】
開発成果は、10 【Webアプリの作成】項に述べるとおりで、目標は達成できたと思う。ここでは省略する。
9 【有益な相関ルール(連関規則)を簡単に抽出できる。】
(当初の予定にはなかったが、実施計画作成直前に追加した機能である。)
未達成である。今後、早急に実現させるつもりである。
10 【Webアプリの作成】
(当初の予定にはなかったが、途中で計画に追加した機能である。)
Webアプリと連携して本ソフトを利用できることを示すために、簡単なシステムを作成(現在も稼動中)し、統計など全く知らない人でもそのシステムに参加することでデータマイニングの一端がわかるようにした。
それが、「当たるも八卦」(Web側TOP画面 http://datamine.jp/ )というシステムである。全体としてはWebアプリ側(データ蓄積)と、リモートPC側(予想モデル作成)の連携動作で動いている。
アンケート入力画面は、資料:「アンケート画面.htm」のとおりである。ここで入力されたデータ(説明変数)を、リモートPC側から送信された予想式に代入して算出された推定値の表示画面は、資料:「当たるも八卦くん」の予想結果画面.htm
である。推定値が的中していればそのまま、外れた場合は訂正された値が(従属変数として)Web側のファイルに追加される。
このデータを、本ソフトに取り込み、分析して予想式(つまり偏回帰係数と定数項)を決定し、その係数ファイルをWebサーバーに送信する。この取り込みから送信までの一連の流れは、ユーザがプロジェクトファイルで指定しておく。
なお、分析時に自動出力された内容は、分析結果(予想モデルと解釈).txt である。この本ソフトの機能を利用すれば、Web対応の分析予想系のシステムを構築する場合に、ユーザはWeb側のアプリを作成するだけで良い。但し、前処理がほとんど不要なデータを吐き出すようにWebアプリを作成しておく必要がある。
11 【教科書的なマニュアルを作成する】
(当初の予定にはあったが、途中で計画から削除した項目である。)
開発スケジュールより遅れで、本ソフトで実現する機能が固まらないため、外注先にマニュアルの記載内容を示すことが出来なくなったため、本項目は取りやめることになった。
|