oracle data mining 11g release...
Post on 07-Mar-2020
4 Views
Preview:
TRANSCRIPT
<ここに画像を挿入>
Copyright © 2009 Oracle Corporation
オラクルData Mining Technologies、 Product Management、Sr. Director
Charlie Bergercharlie.berger@oracle.com
Oracle Data Mining 11g Release 2概要とデモ
データウェアハウス
ETL
OLAP
データマイニング
Oracle 11g DB
統計
Copyright © 2009 Oracle Corporation
以下の事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するものではないため、購買決定を行う際の判断材料になさらないでください。オラクルの製品に関して記載されている機能の開発、リリース、および時期については、弊社の裁量により決定されます。
Copyright © 2009 Oracle Corporation
概要
• 今日のBIには、単純なレポート作成以上のものが求められています。
• この期待に応えるため、企業は以下を必要としています。
• データの移動を解消
• 情報待機時間を短縮
• 分析を通じて、より優れたBIを提供
• ODMは、データベースから“分析データベース”へと変化を遂げ
• "Powered by Oracle Data Mining"アプリケーションを実現
• 簡単なデモ
1. Oracle Data Mining
2. ODM結果のOracle BI EEダッシュボードへの表示
3. ODMを組み込んだ、Oracle Sales Prospector
Copyright © 2009 Oracle Corporation
分析:戦略的かつミッション・クリティカルに
• Competing on Analytics、Tom Davenport著
• 「一部の企業は、データを収集/分析し、その結果に基づいて行動する能力なしには、事業を運営できない」
• 「データ分析を導入している組織は数多くあるが、ここまでの技量水準に達しているのは一握りの組織のみである。しかし、分析を競う企業は、消費財、金融、小売、旅行、エンターテイメントなど、さまざまな分野でリーダーとなっている。」
• 「組織は、問合せとレポーティングの枠を越えつつある」 - IDC(2006年)
• Super Crunchers、Ian Ayers著
• 「以前は、直感と経験だけで何とかやっていけたが時代は変わった。現在、一番肝心なのはデータである。」—Steven D. Levitt、Freakonomics著者
• 「データマイニングと統計分析は、突然クールになった。マーケティングや政治、そしてスポーツさえ分析の対象に。この複雑で重要なことが、こんなに面白い読み物になるとは。」—Wired
Copyright © 2009 Oracle Corporation
競争上の優位性最適化
予測モデリング
予測/推定
統計分析
アラート
問合せ/ドリルダウン
非定型レポート
標準レポート
インテリジェンス・レベル
競争上の優位性
起こりうる最善の事象は何か?
次に起こるのは何か?
この傾向が続く場合はどうするか?
なぜ発生したのか?
必要なアクションは何か?
問題は厳密にはどこにあるのか?
発生した回数、頻度、場所は?
何が起こったのか?
出典:Competing on Analytics、T. DavenportおよびJ. Harris著
$$分析$
アクセスと
レポーティング
Copyright © 2009 Oracle Corporation
Data Miningとは何か
•データを自動的に絞り込み、隠れたパターンを見つけ、新しいインサイトを発見し、予測を行います。
• Data Miningの機能• 顧客行動の予測(分類)
• 値の予測または推定(回帰)• 母集団の区分け(クラスタ化)• ビジネス上の課題に強い関連性を持った要因の特定(属性重要度)• ターゲットとなる人物または項目のプロファイリング(デシジョン・ツリー)
• 母集団内の重要な関係と“マーケットバスケット”の特定(関連付け)• 不正や"まれなケース"の発見(異常検出)
Copyright © 2009 Oracle Corporation
Oracle Data Miningのユースケース例• 小売
·顧客のセグメント化·反応モデリング·次に有望な製品の推奨·高価値顧客のプロファイリング
• 銀行· クレジット・スコアリング·債務不履行確率·顧客収益性·顧客ターゲティング
• 保険· リスク要因の特定·不正請求·保険契約のバンドル·従業員の維持
• 高等教育·卒業生による寄付·学生の獲得·学生の維持
· リスクのある学生の特定
• 医療·治療の推奨·治療結果の予測·不正検出·診断書の分析
• ライフ・サイエンス·創薬と薬物相互作用· (不)健康な患者の共通因子·がん細胞の分類·医薬品安全性調査
• 通信·顧客離れ· クロスセリングの機会の特定·ネットワーク侵入検知
• 公的機関·課税における不正と異常·犯罪分析·軍事偵察でのパターン認識
• 製造·欠陥の根本原因分析·保証分析·信頼性分析·生産高分析
• 自動車·顧客セグメント向けの特性バンドル·サプライヤの品質分析·問題診断
• 化学·新化合物の開発·分子クラスタリング·生成物収率分析
• 公益事業·送電線・電力設備の障害予測·製品バンドル·消費者による不正の検出
Copyright © 2009 Oracle Corporation
Data Miningが提供する優れた情報、価値あるインサイト、予測
契約期間(月)
携帯電話を頻繁に乗り換える顧客 対安定した顧客
セグメントNo.1:
IF CUST_MO > 14 AND INCOME < $90K, THEN Prediction = Cell Phone Churner, Confidence = 100%, Support = 8/39
セグメントNo.3:
IF CUST_MO > 7 AND INCOME < $175K, THEN Prediction = Cell Phone Churner, Confidence = 83%, Support = 6/39
参考文献:Inspired from Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management、Michael J. A. Berry、Gordon S. Linoff著
インサイトと予測
Copyright © 2009 Oracle Corporation
デシジョン・ツリー・モデルを使用した生涯価値(LTV)の高い顧客の予測
>$500K <$500K
1軒 2軒以上 <=35>35
<42 < 2> 42 <80K
Age
LTV = HIGH LTV = Very_High LTV= Low LTV = Low
>80K
LTV = Medium
> 2
LTV = High
Mortgage_Amount
House_Own
Age Years_Cust Salary
単純モデル:ODMには、以下のマイニングを行うモデルがあります。
•非構造化データ(テキスト・コメントなど)
•トランザクション・データ(購入など)
IF (Mortgage_Amount > $500K AND House_Own = 2 or more AND Age = >42) THEN Probability(Lifetime Customer Value is “VERY HIGH” = 77%, Support = 15%
Copyright © 2009 Oracle Corporation
「原則的にすべてのモデルは間違っているが、そのいくつかは役に立つものもある」
- George Box 20世紀にもっとも影響力のあった統計学者の1人
品質管理、時系列分析、実験計画法、およびBayes推論の先駆者
Copyright © 2009 Oracle Corporation
Oracle Data Mining概要(分類)
ケース
名前 収入 年齢反応?1 =はい、0 =いいえ
Jones
Smith
LeeRogers
30,000
55,000
25,000
50,000
30
6723
44
1
1
00
関数関係:
Y = F(X1, X2, …, Xm)
モデル
履歴データ
Campos
Horn
Habers
Berger
40,500
37,000
57,200
95,600
52
73
32
34
新規データ.85
.74
.93
.65
予測 信頼度
1
0
0
1
?
?
?
?
入力属性 ターゲット
Copyright © 2009 Oracle Corporation
Oracle Data Mining11gアルゴリズムの概要
分類
相関ルール
クラスタ化
属性重要度
問題 アルゴリズム 適応性伝統的な統計テクニック
一般的/ルール/透明性
組込みアプリケーション
幅広い限定されたデータ/テキスト
最小記述長(MDL)属性の削減有用なデータの特定データ・ノイズの削減
階層的K平均法
階層的Oクラスタ
製品のグループ化テキスト・マイニング
遺伝子およびたんぱく質分析
アプリオリマーケットバスケット分析リンク分析
多重回帰(GLM)サポート・ベクター・マシン
伝統的な統計テクニック
幅広い/狭いデータまたはテキスト
回帰
特徴抽出 Non-Negative Matrix
Factorization(NMF)
テキスト分析特徴削減
ロジスティック回帰(GLM)デシジョン・ツリーNaive Bayes
サポート・ベクター・マシン(SVM)
1クラスSVM例なし
異常検出
A1 A2 A3 A4 A5 A6 A7
F1 F2 F3 F4
Copyright © 2009 Oracle Corporation
従来型の分析(SAS)環境
ソース・データ(Oracle、DB2、SQL Server、TeraData、
Ext. Tablesなど)
SAS
作業領域(SAS
データセット)
SAS処理(統計機能/
データマイニング)
処理の出力(SAS作業領域)
ターゲット(Oracleなど)
• SAS環境には以下が必要です。• データ移動
• データ複製
• セキュリティの低下
XXX
Copyright © 2009 Oracle Corporation
Oracleアーキテクチャ
ソース・データ(Oracle、DB2、SQL Server、TeraData、
Ext. Tablesなど)
• Oracle環境• データ移動の排除
• データ重複の排除
• セキュリティの維持
Copyright © 2009 Oracle Corporation
従来型の分析方法
数時間、数日、数週間
インデータベース・データマイニング
データ抽出
データの準備と変換
データマイニング・モデルの構築
データマイニング・モデルの
"スコアリング"
データの準備と変換
データのインポート
ソース
・デー
タ
SAS作
業領域
SAS処
理
処理の
出力
ターゲ
ット
数秒、数分、または数時間
モデルの"スコアリング"
組込みデータの準備
データ準備
モデルの構築
Oracle Data Mining
結果• 短時間での“データ”から
“インサイト”の獲得• TCOの削減
•データ移動の排除•データ複製の排除
• セキュリティの維持
データはデータベース内のまま
SQL-データの準備と変換においてもっとも強力な言語
組込みデータを準備
データベースのSQLカーネル内における最新の機械学習アルゴリズム
モデルの"スコアリング"データはデータベース内のまま
節約
Copyright © 2009 Oracle Corporation
インデータベース・データマイニング利点
• ODMアーキテクチャにより向上• パフォーマンス、スケーラビリティ、データ・セキュリティ
• データはデータベース内にとどまる• 移動部分が尐なくなり、情報の待機時間が短縮
• 興味があり恣意的で複雑な問合せに簡単に追加可能• “SELECT Customers WHERE Income > 100K,
AND Probability(Buy Product A) > .85;”
• 現実的なスケーラビリティミッション・クリティカル・アプリケーションに適用可能
• 高コストなマテリアライズなしで、結果のパイプラインを実現
• 優れたパフォーマンスとスケーラビリティ• 高速スコアリング:単一CPUシステム上の250万レコードのスコアリングを6秒で実行
• リアルタイム・スコアリング:単一CPUシステム上の100モデルのスコアリングを0.085秒で実行
データウェアハウス
ETL
OLAP
データマイニング
Oracle 11g DB
統計
Copyright © 2009 Oracle Corporation
「1時間で世界を救えと言われたら、問題の定義に55分かけ、残り5分で解決策を考えよう」
- Albert Einstein http://www.wikihow.com/Define-a-Problem参照
Copyright © 2009 Oracle Corporation
どこから始めますか?
「不正解:今あるものすべてをカタログ化し、どのデータが重要であるかを決定する」
「正解:解決策からさかのぼって作業し、問題を明白に定義してから、調査結果とモデルの作成に必要なデータを正確に記述する」
- Smart (Enough) Systemsより抜粋
James Taylor、Neil Raden著
Copyright © 2009 Oracle Corporation
Oracle Data Miningと非構造化データ
• Oracle Data Miningは、非構造化データ(テキストなど)のマイニングを行います。
• ODMモデルにはフリー・テキストやコメントが含まれます。
• ドキュメントをクラスタ化および分類します。
• 非構造化テキストの前処理には、Oracle Textが使用されます。
Copyright © 2009 Oracle Corporation
例:シンプルな予測SQL
• 高価値顧客になる可能性が85%以上の顧客を選び、その年齢と住宅ローン残高を表示します。
SELECT * from(
SELECT A.CUSTOMER_ID, A.AGE,
MORTGAGE_AMOUNT,PREDICTION_PROBABILITY
(INSUR_CUST_LT27754_DT, 'VERY HIGH'
USING A.*) prob
FROM CBERGER.INSUR_CUST_LTV A)
WHERE prob > 0.85;
Copyright © 2009 Oracle Corporation
不正予測デモdrop table CLAIMS_SET;
exec dbms_data_mining.drop_model('CLAIMSMODEL');
create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000));
insert into CLAIMS_SET values
('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');
insert into CLAIMS_SET values ('PREP_AUTO','ON');
commit;
begin
dbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION',
'CLAIMS', 'POLICYNUMBER', null, 'CLAIMS_SET');
end;
/
Top 5 most suspicious fraud policy holder claims
select * from
(select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud,
rank() over (order by prob_fraud desc) rnk from
(select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud
from CLAIMS
where PASTNUMBEROFCLAIMS in ('2 to 4', 'more than 4')))
where rnk <= 5
order by percent_fraud desc;
POLICYNUMBER PERCENT_FRAUD RNK
------------ ------------- ----------
6532 64.78 1
2749 64.17 2
3440 63.22 3
654 63.1 4
12650 62.36 5
Copyright © 2009 Oracle Corporation
Oracle Data Mining 11g
•データマイニング機能(サーバー)• PL/SQL APIとJava API
• 予測分析アプリケーションの開発および配置
•幅広いデータマイニング・アルゴリズム(12)
• 分類と回帰
• クラスタ化
• 異常検出
• 属性重要度
• 特徴抽出(NMF)
• 相関ルール(マーケットバスケット分析)
• 構造化データと非構造化データ(テキスト・マイニング)
• Oracle Data Miner(GUI)
• ウィザードを使用した、ガイド付きの簡単なデータマイニング
•予測解析• スプレッドシートを使用した"ワンクリック・データマイニング"
データウェアハウス
ETL
OLAP
データマイニング
Oracle 11g DB
統計
Copyright © 2009 Oracle Corporation
分析データベースが*すべて*を変える
つまり
尐ないデータ移動 = 迅速な分析であり、迅速な分析 = 企業全体のより優れたBIにつながります。
?x
データマイニング
統計関数 テキスト・マイニング
OLAP 予測解析
Copyright © 2009 Oracle Corporation
Oracle BI EE管理者は、Oracle Data Miningの結果を利用できます。
Oracle BI EEで、エンド
ユーザーへ表示する結果を定義します。
Oracle BI EEとの統合
Copyright © 2009 Oracle Corporation
例BI EEのレポートとダッシュボードに質の高い情報を提供
Oracle BI EE
やその他のツールを使用して、ODMの予測
および確率をデータベースから使用し、レポートに表示できます。
Oracle BI EEやそ
の他のツールを使用して、データベースでODMの予測お
よび確率をレポートに表示させることができます。
Copyright © 2009 Oracle Corporation
11gの統計分析とSQL分析
• ランキング関数• rank、dense_rank、cume_dist、
percent_rank、ntile
• ウィンドウ集計関数(累積集計と移動集計)
• Avg、sum、min、max、count、variance、stddev、first_value、last_value
• LAG/LEAD関数• オフセットを使用した、直接的な行間参照
• レポート集計関数• Sum、avg、min、max、variance、stddev、
count、ratio_to_report
• 統計集計• Correlation、linear regression family、
covariance
• 線形回帰• 一連の番号ペアに対する、最小2乗(OLS)回帰直線のフィッティング
• COVAR_POP、COVAR_SAMP、COR関数と組み合わせて使用されることが多い
記述統計• DBMS_STAT_FUNCS:表に含まれる数値列を要約し、カウント、平均値、stats_mode、分散、標準偏差、中央値、変位値、+/- nシグマ値、上位または下位の5つの値を返す
• 相関関係• ピアソンの標本相関係数、スピアマンとケンドールの順位相関係数(いずれもノンパラメトリック)
• クロス集計• %統計による改善: カイ二乗、ファイ係数、
Cramer's V、一致係数、カッパ係数
• 仮説検定• スチューデントt検定、F検定、二項検定、ウィルコクソンの符号順位検定、カイ二乗、マン・ホイットニー検定、コルモゴロフ・スミルノフ検定、一方向ANOVA
• 分布フィッティング• コルモゴロフ・スミルノフ検定、アンダーソン・ダーリング検定、カイ二乗検定、正規分布、一様分布、ワイブル分布、指数分布
注:統計およびSQL分析は、Oracle Database Standard Editionに含まれます。
統計
Copyright © 2009 Oracle Corporation
記述統計
• 中央値と最頻値• 中央値:数字またはデータ型の値を取得し、中央の値を返します。
• 最頻値:もっとも度数の多い値を返します。
A. SELECT STATS_MODE(AGE) from LYMPHOMA;
B. SELECT MEDIAN(AGE) from LYMPHOMA;
C. SELECT TREATMENT_PLAN, STATS_MODE(LYMPH_TYPE)
from lymphoma GROUP BY TREATMENT_PLAN;
D. SELECT LYMPH_TYPE, MEDIAN(SIZE_REDUCTION) from
LYMPHOMA GROUP BY LYMPH_TYPE ORDER BY
MEDIAN(SIZE_REDUCTION) ASC;
> SQL
Copyright © 2009 Oracle Corporation
ロットAとBに対するオファー分割テスト
•ある母集団に“A”をオファーし、別の母集団に“B”をオファーします。
•期間“t”が経過したら、オファーAとBを受け取った顧客の購入額に対して中央値を計算します。
• t検定を実施し、結果を比較します。
•もし、一方のオファー結果が統計的に有意に優れている場合、パフォーマンスの高いオファーを全員に提示します。
Copyright © 2009 Oracle Corporation
t検定の独立サンプル(合併分散)
•顧客収入レベル(CUST_INCOME_LEVEL)の範囲内にある男性と女性への販売額(AMOUNT_SOLD)の平均値を比較する問合せ
SELECT substr(cust_income_level,1,22) income_level,
avg(decode(cust_gender,'M',amount_sold,null)) sold_to_men,
avg(decode(cust_gender,'F',amount_sold,null)) sold_to_women,
stats_t_test_indep(cust_gender, amount_sold, 'STATISTIC','F')
t_observed,
stats_t_test_indep(cust_gender, amount_sold) two_sided_p_value
FROM sh.customers c, sh.sales s
WHERE c.cust_id=s.cust_id
GROUP BY rollup(cust_income_level)
ORDER BY 1;
SQL Worksheet
Copyright © 2009 Oracle Corporation
相関関数
• CORR_S関数とCORR_K関数は、ノンパラメトリック相関または順位相関をサポートします(順序尺度を持つ式に相関関係を見つける)。
• 相関係数は、-1から1までの値をとり、• 1は、完全相関を意味します。
• -1は、負の完全相関を意味します。
• 0は、無関係を意味します。
• 次の問合せは、スピアマンの相関を使用して、年齢と体重に相関関係があるかどうかを特定します。
?x
select CORR_S(AGE, WEIGHT)
coefficient,
CORR_S(AGE, WEIGHT,
'TWO_SIDED_SIG')
p_value,
substr(TREATMENT_PLAN, 1,15)
as TREATMENT_PLAN
from CBERGER.LYMPHOMA
GROUP BY TREATMENT_PLAN;
Copyright © 2009 Oracle Corporation
の分析 対1. データベース内にある分析エンジン
基本的な統計機能(無償)
データマイニング
テキスト・マイニング
2. コスト(ODM: $23,000ドル/cpu)
単純な環境
シングル・サーバー
セキュリティ
3. ITプラットフォーム
SQL(標準)
Java(標準)
1. 外部の分析エンジン
基本的な統計機能
データマイニング
テキスト・マイニング(別売:SAS EM for Text)
高度な統計機能
2. コスト(SAS EM:15万ドル/5ユーザー)
データの複製
年間更新料(AUF)(毎年~45%)
3. ITプラットフォーム
SASコード(独自仕様)
データウェアハウス
ETL
OLAP
データマイニング
Oracle 11g DB
統計
Copyright © 2009 Oracle Corporation
の分析 対
データウェアハウス
ETL
OLAP
データマイニング
Oracle 11g DB
統計
1. データベース内にある分析エンジン
基本的な統計機能(無償)
データマイニング
テキスト・マイニング
2. コスト(ODM: $23,000ドル/cpu)
単純な環境
シングル・サーバー
セキュリティ
3. ITプラットフォーム
SQL(標準)
Java(標準)
1. 外部の分析エンジン
基本的な統計機能
データマイニング
テキスト・マイニング(別売:SAS EM for Text)
高度な統計機能
2. コスト(SAS EM:15万ドル/5ユーザー)
データの複製
年間更新料(AUF)(毎年~45%)
3. ITプラットフォーム
SASコード(独自仕様)
データウェアハウス
ETL
OLAP
データマイニング
Oracle 11g DB
統計
Copyright © 2009 Oracle Corporation
SASのインデータベース処理3カ年計画
•SASのインデータベース・イニシアチブの目標は・・・データベース・プロバイダとの間で技術的統合を強化することにある・・・
•・・・SASエンジンがDBMSに対してデータのロードや抽出を行う際、多くの場合、ネットワークを経由しなければならない。 これには、いくつもの課題が挙げられる。
• ・・・SASとDBMS間にあるネットワーク・ボトルネックにより、大量データへのアクセスが制限されている。
•・・・最終的な保存のためには、SASの処理結果をDBMS
に送り返す必要があり、さらにコストが上昇する。
参考文献:SAS In-Database Processing、ホワイト・ペーパー、2007年10月
Copyright © 2009 Oracle Corporation
簡単なデモ
1. Oracle Data Mining
2. Oracle Business Intelligence EE
3. CRM Sales Prospector
Copyright © 2009 Oracle Corporation
クイック・デモ:Oracle Data Mining• シナリオ:保険会社
• 業務上の課題1. データをグラフ形式で確認し、ビジネスに対する理解を深める。
2. 保険契約を結ぶ(BUY_INSURANCE)顧客にもっとも関連の深い要因(属性)を特定する。
3. ベスト顧客のターゲティング
a. 非常に価値の高い顧客(VERY_HIGH VALUE)となるのはどのような人物であり、その要因は何か(IF..THEN..ルールによる表現)を理解するための予測モデルを構築する。
b. 将来的に、VERY_HIGH VALUE顧客となりそうな人々を予測する。
c. Oracle BI EEダッシュボードを使用して、結果を確認する。
• その他の業務課題(不正、クロスセリングなど)も含まれる。
• (すべてのプロセスはPL/SQLやJava APIを使用して自動化できます。)
Copyright © 2009 Oracle Corporation
Oracle Data Mining + Oracle BI EEデータの把握
Oracle Data Miningを使用すると、簡単にデータを視覚化できます。
Copyright © 2009 Oracle Corporation
Oracle Data Mining + Oracle BI EE適切な顧客ターゲティング
Oracle Data Miningのガイドに
従うと、簡単にデータマイニング・プロセスを実行できます。
Copyright © 2009 Oracle Corporation
Oracle Data Mining + Oracle BI EE高価値顧客のターゲティング
Oracle Data Miningでは、高価値顧客(HI_VALUE_CUSTOMERS)を差別化するモデルを構築できます。
Copyright © 2009 Oracle Corporation
Oracle Data Mining + Oracle BI EE高価値顧客のターゲティング
Oracle Data Miningでは、
高価値顧客となりそうな人物を優先順位付けしたリストを作成できます。
Copyright © 2009 Oracle Corporation
Oracle Data Mining尐ないコストで、より多くの情報と実行を
•ビジネス上の意志決定者
•優れた意思決定
•より高い価値をデータから抽出
•総所有コストを削減
•データ・アナリスト
•より迅速に結果を取得
•より多くの結果を取得
•簡単な使用方法
•インテグレーターとIT部門
•より高い価値を組織に
•作業は簡単に
• ITをコスト・センターから
プロフィット・センターへ転換
Copyright © 2009 Oracle Corporation
HCM予測デモdrop table HCM_SET;
exec dbms_data_mining.drop_model('HCMMODEL');
create table HCM_SET (setting_name varchar2(30), setting_value varchar2(4000));
insert into HCM_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');
insert into HCM_SET values ('PREP_AUTO','ON');
commit;
begin
dbms_data_mining.create_model('HCMMODEL', 'CLASSIFICATION',
'EMPL_DATA', 'EMPL_ID', 'CURR_EMPL', 'HCM_SET');
end;
/
-- accuracy (per-class and overall)
col actual format a6
select actual, round(corr*100/total,2) percent, corr, total-corr incorr, total from
(select actual, sum(decode(actual,predicted,1,0)) corr, count(*) total from
(select CURR_EMPL actual, prediction(HCMMODEL using *) predicted
from EMPL_DATA_JUNE07)
group by rollup(actual));
-- top 5 very high value, current employees most likely to leave
select * from
(select empl_id, round(prob_leave*100,2) percent_leave,
rank() over (order by prob_leave desc) rnk from
(select empl_id, prediction_probability(HCMMODEL, 'NO' using *) prob_leave
from EMPL_DATA_JUNE07
where CURR_EMPL = 'YES' and LTV_BIN = 'VERY HIGH'))
where rnk <= 5
order by percent_leave desc;
ACTUAL PERCENT CORR INCORR TOTAL
------------ ---------- ---------- ---------- ----------
NO 84.04 3133 595 3728
YES 80.61 8159 1963 10122
81.53 11292 2558 13850
Elapsed: 00:00:01.51
SQL>
EMPL_ID PERCENT_LEAVE RNK
---------- ------------- ----------
772858 96.84 1
775441 95.65 2
777992 92.1 3
773473 91.51 4
771813 90.21 5
Elapsed: 00:00:00.29
SQL>
Copyright © 2009 Oracle Corporation
予測分析のユースケース• 登場人物
• ピーター:Data Mining Analyst
• サリー:Marketing Manager
• ピーターは、デシジョン・ツリー分類モデルとしてtree_modelを構築
• ピーターは、このツリー・モデルの参照およびスコアリング権限をサリーに付与
GRANT SELECT MODEL ON tree_model TO Sally;
• サリーは、このモデルに満足し、モデルの導入に同意
• サリーは、新しいモデルとピーターの算出した顧客への接触コストを利用して、顧客データベースのスコアリングを行い、営業部長に新しいコンタクト・リストを送付
CREATE TABLE AS SELECT cust_name, cust_phone FROM customersWHERE prediction(Peter.tree_model cost matrix (0,5,1,0) using *) = „responder‟;
Copyright © 2009 Oracle Corporation
リアルタイム予測with
records as (select78000 SALARY,250000 MORTGAGE_AMOUNT,6 TIME_AS_CUSTOMER,12 MONTHLY_CHECKS_WRITTEN,55 AGE,423 BANK_FUNDS,'Married' MARITAL_STATUS,'Nurse' PROFESSION,'M' SEX,4000 CREDIT_CARD_LIMITS,2 N_OF_DEPENDENTS,1 HOUSE_OWNERSHIP from dual)
select s.prediction prediction, s.probability probabilityfrom (
select PREDICTION_SET(INSUR_CUST_LT68054_DT, 1 USING *) psetfrom records) t, TABLE(t.pset) s;
新規データを伴うシングル・レコードへの即時適用(コールセンターからの入力データなど)
Copyright © 2009 Oracle Corporation
複数モデルの予測と最適化 with records as (select
178255 ANNUAL_INCOME,30 AGE, 'Bach.' EDUCATION, 'Married' MARITAL_STATUS, 'Male' SEX, 70 HOURS_PER_WEEK, 98 PAYROLL_DEDUCTION from dual)
select t.* from (
select 'CAR_MODEL' MODEL, s1.prediction prediction, s1.probability probability, s1.probability*25000 as expected_revenue from (
select PREDICTION_SET(NBMODEL_JDM, 1 USING *) pset from records ) t1, TABLE(t1.pset) s1
UNIONselect 'MOTOCYCLE_MODEL' MODEL, s2.prediction prediction, s2.probability probability, s1.probability*2000
as expected_revenue from (select PREDICTION_SET(ABNMODEL_JDM, 1 USING *) pset from records ) t2, TABLE(t2.pset) s2
UNIONselect 'TRICYCLE_MODEL' MODEL, s3.prediction prediction, s3.probability probability, s1.probability*50 as
expected_revenue from (select PREDICTION_SET(TREEMODEL_JDM, 1 USING *) pset from records ) t3, TABLE(t3.pset) s3
UNIONselect 'BICYCLE_MODEL' MODEL, s4.prediction prediction, s4.probability probability, s1.probability*200 as
expected_revenue from (select PREDICTION_SET(SVMCMODEL_JDM, 1 USING *) pset from records ) t4, TABLE(t4.pset) s4
) t
order by t.expected_revenue desc;
複数モデルを即時適用し、期待収益順にソート
Copyright © 2009 Oracle Corporation
Oracle Data Mining
Oracle Open WorldでのLarry Ellisonによる基調講演2007年11月
• 顧客データベースのデータマイニング機能が統合された、ホスト型オンデマンドCRM Fusion Applicationを発表
Copyright © 2009 Oracle Corporation
売上げを伸ばすには?
製品
顧客
参考資料
• どのような顧客がどの製品を購入しているか?
• 商談成立に役立つ参考資料はどちらか?
• 顧客と類似点の多い見込み顧客はどちらか?
営業担当者
Copyright © 2009 Oracle Corporation
Oracle Data Mining = 販売科学
Oracle Sales Prospector
ODM予測をSocial CRM
ダッシュボードに表示します。
Oracle Database 11g
Social CRMスキーマは、Oracle Database
EE 11g + Data
Miningオプションに同梱されています。
Copyright © 2009 Oracle Corporation
Oracle Data
Miningによる、購入見込みの予測
Oracle Data Miningによる
顧客が購入しそうな製品の推奨
Oracle Data Mining
による適切な参考文献の提案
Copyright © 2009 Oracle Corporation
Oracle Retail Data Model
• Oracle Data Miningは、分析レポート向けのデータマイニングを自動的に行います。
• Oracle Data Miningは、追加設定なしで、顧客プロファイルを生成します。
Copyright © 2009 Oracle Corporation
Oracle Data Mining
• 次世代予測アプリケーションを実現• 自動的にデータマイニングを行うアプリケーションを素早く構築
• 一度の構築で、どこでも実行可能
• パラレル処理と分散処理
• 業界標準のSQL APIとJava API
• インデータベース・データマイニングにおいて業界をリード• 業界トップのRDBMS(Oracle Database)のオプション
• 分類、回帰、属性重要度
• クラスタ化、マーケットバスケット分析、異常検出、特徴抽出
• 最先端のアルゴリズム:SVM、1クラスSVM、NMF、拡張可能なGLM
Copyright © 2009 Oracle Corporation
Oracle Data Mining
• より多くのデータを活用して、より多くの情報を• 使いやすいOracle Data Minerグラフィカル・ユーザー・インタフェース
• さまざまなインデータベース・データマイニングのアルゴリズムと統計機能
• テキスト、トランザクション・データ、スター・スキーマ・データのマイニング
• XML、セマンティックRDF、空間データ、OLAPデータのマイニング
• アナリストとIT部門の障壁を崩す• 分析結果およびモデルを組織全体へ迅速に流布
• リアルタイム予測モデルと新たなインサイトをSQL問合せに追加
• データ移動の解消、セキュリティの徹底
Copyright © 2009 Oracle Corporation
データマイニング・プロジェクト
• 「大多数のBI専門家は、データマイニングへの期待に色めき立っているが、どこから始めるのか、またどのように準備するのかが分からず、途方に暮れている。」
• 「実際に開始されたモデリング・イニシアチブにおいても、51%のデータマイニング・プロジェクトは、実行されなかったか、価値を理解できなかったか、または最終的な成果が測定不可能であった。」
• 「実際に導入が行われた予測モデルもほとんどのケースで正しく機能していない。」
• 「年間収益が5000万ドルを上回る組織では、データマイニング・テクノロジーを導入するかしないかは問題ではない。いつ導入するかの問題である。」
http://www.the-modeling-agency.com
Copyright © 2009 Oracle Corporation
Oracle Data Miningについて• Oracle Data Miningの無償評価版をダウンロードし、実際に使用することができます。『 Oracle Data
Mining管理者ガイド』には、データベースをインストールし、ユーザー・アカウントをセットアップする方法が記載されています。Oracle Database Enterprise Edition(10g Release 2または11g)は、Oracle Technology Networkからダウンロードできます。Oracle Database EEをインストールすると、デフォルトでOracle Data Miningオプションがインストールされます。データ・アナリストまたはデータマイニングを初めて行う場合、無償のグラフィカル・ユーザー・インタフェース・オプションであるOracle Data Minerをダウンロードしてください。ODMでサポートされるアルゴリズムの概要と、各アルゴリズムのドキュメントへのリンクは、こちらを参照してください。.
• すぐに開始する場合、『Oracle Data Mining概要』の第1章を読むと、Oracle Data Miningの機能と用語について把握できます。次に、『Oracle Data Mining Tutorial 』を実行すると、Oracle Data Minerグラフィカル・インタフェースの使用法が詳しく理解できます。.csv形式のテキスト・ファイルに保存した独自データをOracle Data Minerにインポート(「Data」→「Import」)すると、データマイニングを開始できます。
• アプリケーション開発者の場合、『Oracle Data Miningアプリケーション開発者ガイド』とOracle Data Miningのサンプル・プログラムを参照して、SQLまたはJavaベースのデータマイニング・アプリケーション構築を開始してください。
• Oracle Data Miningの学習用に次のデータセットが提供されています。
CUST_INSUR_LTV(dmpファイル)、CD_BUYERS(dmpファイル)、EMPL_DATA(dmpファイル)、LYMPHOMA(dmpファイル)
• ODMのサーバーベースのPL/SQL APIまたはJava APIを使用すると、あらゆるレポートやエンタープライズ・アプリケーションに対して、予測分析機能を統合できます。デモ用サンプル・コードについては、『ODM Sample Programs』を参照してください。
• Oracle Universityで提供されているOracle Data Miningコース
• Installing Data Miner (Oracle By Example)
• Solving Business Problems with Data Mining(Oracle By Example)
http://www.oracle.com/technology/products/bi/odm/odm_education.html
<ここに画像を挿入>
Copyright © 2009 Oracle Corporation
追加情報
連絡先(電子メール):Charlie.berger@oracle.com
Oracle Data Mining 11g •oracle.com/technology/products/bi/odm/index.html
Oracle Statistical Functions•http://www.oracle.com/technology/products/bi/stats_fns/index.html
Oracle Business Intelligenceソリューション•oracle.com/bi
http://search.oracle.com
oracle data mining
top related