|
大量のデータの中に隠れた情報(規則性、法則性、因果関係など)を導き出したり、また予測モデルの作成や最適制御を行う方法として、最近データマイニングという手法が注目され始めたが、その有効性が広く認識されているにもかかわらず、一般には普及していないのが現状である。
その理由としては、統計の専門家やプログラマが必要、運用に人手がかかる、増大し変動する過去データに即応できないからである。
また、全世界のWeb上の膨大なデータや日々刻々と更新されているデータを予想モデルや制御モデルの入力(説明変数)として取り入れて解析することにより、これまでにない新たな宝(真理と法則)を掘り当てることができると私は考えているが、Webデータに対応したデータマイニングツールは見当たらない。
従って、これらの問題点を解決して、身近で実用的なデータマイニングツールを開発し、一般に公開したい。機能の特徴は次のとおり。
・有益な相関ルール(連関規則)を簡単に抽出できる。
・重回帰分析を用いて、膨大なデータから隠れた特徴や関係を見い出し、任意の数量変数を予測するモデルを簡単に作成できる。
・統計の専門家が不要な簡易なインターフェースとし、マクロやプログラミングが不要で、現場の担当者が容易に予測モデルの作成とそれを使ったシステムを構築できる。
・予測因子をAIC法等により適切にかつ自動的に選択し、予測信頼性の高いモデルを作成できる。
・予測モデルの作成時以降の実測データで検証し、これを予測モデル選定にフィードバックできる。
・予測モデルの性質に応じて過去への検証結果と将来への検証結果の重み付けを任意に設定できる。
・最適モデルの計算処理において、処理時間短縮のための独自の計算手法を使う。
・増大し変動する過去データに即応して最適な予測モデルを自動作成できる。
・HTML,CSV,TSVなど様々なファイル形式で存在する表データを、インターネットやディスクなどから媒体を選ばず収集できる。
・解析結果に悪影響及ぼす異常データや欠損データを除去・補完できる。
・予測モデルの更新作業を自動化し、人手を要しない。
※ これらの機能の一部は、私が作成してインターネット上に公開している数種類のソフトで実現しており、今後は不足する機能の実現に取り組み、これらの要素技術を集大成する形で、目標とするデータマイニングツールを開発する。
|