2016年5月4日 星期三

[資料探勘]資料與資料準備


  • Data Mining 問題類型
    △分類
    △預測
    ○分群
    ○關聯規則

    △監督式
    ○非監督式

  • Data Mining Mode
    ○關聯規則
    △決策樹
    類神經網路
    群集分析
    貝式網路
    約略集合理論
    多變量分析
    時間序列分析


  • 資料類型
    數值:年齡、員工年資
    字元與字串:男、女
    布林:true、false
    時間性資料:
        序列:網站點擊順序
        時間序列:台灣每天的溫度資料
    空間資料:亞洲區域的溫度資料
    文字資料
    多媒體資料

  • 資料尺度
    名目:學號、身份證字號
    類別:郵遞區號
    順序:比賽名次、產品品質等級
    間距:衡量溫度的尺度,攝氏49度C與50度C溫差等於85度C與86度C的溫差
    比率:時間長短、貨幣面額
    絕對:機率值

  • 資料檢視
1.位置測度
     平均數  μ
       幾何平均值 G
       調和平均值 H
     中位數  Md
     眾數   Mo

2.趨勢測度
    全距   R
    四分位差   QD
    變異數    σ^2
    標準差    σ
    變異係數   CV

3.偏態測度
    偏態係數(SK)

4.峰態測度
    峰態係數(K)


  • 資料視覺化

           直方圖
           長條圖
           圓餅圖
           盒鬚圖
           Q-Q圖
           折線圖
           散步圖
           平行座標圖


  • 資料整合清理

1.不正確的資料
2.不一致的資料
3.重複的資料
4.冗餘的資料
5.遺漏值
    直接刪去該變數值
    人工填寫遺漏值
    使用一個全域常數填充遺漏值
    使用屬性平均數
    給定屬於同一類別的所有樣本之平均值
    使用資料探勘分法來填充遺漏值
雜訊
    裝箱法
    等寬裝箱法
離群值
    直接刪除
    用其他數值替換,將資料範圍正規化
    群集分析




  • 資料轉換

資料數值轉換
    正規化
    標準化
資料屬性轉換
    離散型資料轉成連續型資料
    連續型資料轉成離散型資料
        監督式與非監督式
        對態與靜態
        全域與局部
        分割與合併
        直接的或增加的



  • 資料化約

資料維度化約
    一、特徵選取法
        步驟一:決定特徵衡量準則
            1.傳統測量法
            2.一致性測量法
            3.關聯性測量法
            4.區別測量          
            5.資訊增益測量(又稱決策樹特徵選取法)
        步驟二:選取特徵產生計畫
            1.逐步向前挑選法
            2.逐步向後刪減法
            3.混合法
            4.隨機選取法
            5.樹狀歸納法
        步驟三:特徵選取策略
            1.徹底搜尋策略
            2.啟發式搜尋策略
            3.隨機搜尋策略
        步驟四:設定停止條件
    二、主成分分析法(PCA)

資料紀錄化約
    簡單隨機抽樣
    分層隨機抽樣
    群集抽樣
    系統抽樣
    改變資料分布比例的抽樣

資料數值化約
    離散化
    概念階層

  • 資料分割

    將資料分成
        訓練資料組
        測試資料組
        驗證資料組

 

沒有留言:

張貼留言