- Data Mining 問題類型
△預測
○分群
○關聯規則
△監督式
○非監督式
- Data Mining Mode
△決策樹
○△類神經網路
群集分析
貝式網路
約略集合理論
多變量分析
時間序列分析
- 資料類型
字元與字串:男、女
布林:true、false
時間性資料:
序列:網站點擊順序
時間序列:台灣每天的溫度資料
空間資料:亞洲區域的溫度資料
文字資料
多媒體資料
- 資料尺度
類別:郵遞區號
順序:比賽名次、產品品質等級
間距:衡量溫度的尺度,攝氏49度C與50度C溫差等於85度C與86度C的溫差
比率:時間長短、貨幣面額
絕對:機率值
- 資料檢視
平均數 μ
幾何平均值 G
調和平均值 H
中位數 Md
眾數 Mo
2.趨勢測度
全距 R
四分位差 QD
變異數 σ^2
標準差 σ
變異係數 CV
3.偏態測度
偏態係數(SK)
4.峰態測度
峰態係數(K)
- 資料視覺化
直方圖
長條圖
圓餅圖
盒鬚圖
Q-Q圖
折線圖
散步圖
平行座標圖
- 資料整合清理
1.不正確的資料
2.不一致的資料
3.重複的資料
4.冗餘的資料
5.遺漏值
直接刪去該變數值
人工填寫遺漏值
使用一個全域常數填充遺漏值
使用屬性平均數
給定屬於同一類別的所有樣本之平均值
使用資料探勘分法來填充遺漏值
雜訊
裝箱法
等寬裝箱法
離群值
直接刪除
用其他數值替換,將資料範圍正規化
群集分析
- 資料轉換
資料數值轉換
正規化
標準化
資料屬性轉換
離散型資料轉成連續型資料
連續型資料轉成離散型資料
監督式與非監督式
對態與靜態
全域與局部
分割與合併
直接的或增加的
- 資料化約
資料維度化約
一、特徵選取法
步驟一:決定特徵衡量準則
1.傳統測量法
2.一致性測量法
3.關聯性測量法
4.區別測量
5.資訊增益測量(又稱決策樹特徵選取法)
步驟二:選取特徵產生計畫
1.逐步向前挑選法
2.逐步向後刪減法
3.混合法
4.隨機選取法
5.樹狀歸納法
步驟三:特徵選取策略
1.徹底搜尋策略
2.啟發式搜尋策略
3.隨機搜尋策略
步驟四:設定停止條件
二、主成分分析法(PCA)
資料紀錄化約
簡單隨機抽樣
分層隨機抽樣
群集抽樣
系統抽樣
改變資料分布比例的抽樣
資料數值化約
離散化
概念階層
- 資料分割
將資料分成
訓練資料組
測試資料組
驗證資料組