處理不完備數據集的方法主要有以下三大類(lèi): (一)刪除元組 也就是將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個(gè)完備的信息表。
這種方法簡(jiǎn)單易行,在對象有多個(gè) 屬性缺失值、被刪除的含缺失值的對象與信息表中的數據量相比非常小的情況下是非常有效的,類(lèi)標號(假設是分類(lèi)任務(wù))缺少時(shí) 通常使用。然而,這種方法卻有很大的局限性。
它是以減少歷史數據來(lái)?yè)Q取信息的完備,會(huì )造成資源的大量浪費,丟棄了大量隱藏 在這些對象中的信息。在信息表中本來(lái)包含的對象很少的情況下,刪除少量對象就足以嚴重影響到信息表信息的客觀(guān)性和結果的正 確性;當每個(gè)屬性空值的百分比變化很大時(shí),它的性能非常差。
因此,當遺漏數據所占比例較大,特別當遺漏數據非隨機分布時(shí), 這種方法可能導致數據發(fā)生偏離,從而引出錯誤的結論。 (二)數據補齊 這類(lèi)方法是用一定的值去填充空值,從而使信息表完備化。
通常基于統計學(xué)原理,根據決策表中其余對象取值的分布情況來(lái) 對一個(gè)空值進(jìn)行填充,譬如用其余屬性的平均值來(lái)進(jìn)行補充等。數據挖掘中常用的有以下幾種補齊方法: (1)人工填寫(xiě)(filling manually) 由于最了解數據的還是用戶(hù)自己,因此這個(gè)方法產(chǎn)生數據偏離最小,可能是填充效果最好的一種。
然而一般來(lái)說(shuō),該方法很費時(shí), 當數據規模很大、空值很多的時(shí)候,該方法是不可行的。 (2)特殊值填充(Treating Missing Attribute values as Special values) 將空值作為一種特殊的屬性值來(lái)處理,它不同于其他的任何屬性值。
如所有的空值都用“unknown”填充。這樣將形成另一個(gè)有趣的 概念,可能導致嚴重的數據偏離,一般不推薦使用。
(3)平均值填充(Mean/Mode Completer) 將信息表中的屬性分為數值屬性和非數值屬性來(lái)分別進(jìn)行處理。如果空值是數值型的,就根據該屬性在其他所有對象的取值 的平均值來(lái)填充該缺失的屬性值;如果空值是非數值型的,就根據統計學(xué)中的眾數原理,用該屬性在其他所有對象的取值次數最多 的值(即出現頻率最高的值)來(lái)補齊該缺失的屬性值。
另外有一種與其相似的方法叫條件平均值填充法(Conditional Mean Completer)。在該方法中,缺失屬性值的補齊同樣是靠該屬性在其他對象中的取值求平均得到,但不同的是用于求平均的值并不是 從信息表所有對象中取,而是從與該對象具有相同決策屬性值的對象中取得。
這兩種數據的補齊方法,其基本的出發(fā)點(diǎn)都是一樣的 ,以最大概率可能的取值來(lái)補充缺失的屬性值,只是在具體方法上有一點(diǎn)不同。與其他方法相比,它是用現存數據的多數信息來(lái)推 測缺失值。
(4)熱卡填充(Hot deck imputation,或就近補齊) 對于一個(gè)包含空值的對象,熱卡填充法在完整數據中找到一個(gè)與它最相似的對象,然后用這個(gè)相似對象的值來(lái)進(jìn)行填充。不 同的問(wèn)題可能會(huì )選用不同的標準來(lái)對相似進(jìn)行判定。
該方法概念上很簡(jiǎn)單,且利用了數據間的關(guān)系來(lái)進(jìn)行空值估計。這個(gè)方法的缺 點(diǎn)在于難以定義相似標準,主觀(guān)因素較多。
(5)K最近距離鄰法(K-means clustering) 先根據歐式距離或相關(guān)分析來(lái)確定距離具有缺失數據樣本最近的K個(gè)樣本,將這K個(gè)值加權平均來(lái)估計該樣本的缺失數據。 (6)使用所有可能的值填充(Assigning All Possible values of the Attribute) 這種方法是用空缺屬性值的所有可能的屬性取值來(lái)填充,能夠得到較好的補齊效果。
但是,當數據量很大或者遺漏的屬性值 較多時(shí),其計算的代價(jià)很大,可能的測試方案很多。另有一種方法,填補遺漏屬性值的原則是一樣的,不同的只是從決策相同的對 象中嘗試所有的屬性值的可能情況,而不是根據信息表中所有對象進(jìn)行嘗試,這樣能夠在一定程度上減小原方法的代價(jià)。
(7)組合完整化方法(Combinatorial Completer) 這種方法是用空缺屬性值的所有可能的屬性取值來(lái)試,并從最終屬性的約簡(jiǎn)結果中選擇最好的一個(gè)作為填補的屬性值。這是 以約簡(jiǎn)為目的的數據補齊方法,能夠得到好的約簡(jiǎn)結果;但是,當數據量很大或者遺漏的屬性值較多時(shí),其計算的代價(jià)很大。
另一 種稱(chēng)為條件組合完整化方法(Conditional Combinatorial Complete),填補遺漏屬性值的原則是一樣的,不同的只是從決策相同 的對象中嘗試所有的屬性值的可能情況,而不是根據信息表中所有對象進(jìn)行嘗試。條件組合完整化方法能夠在一定程度上減小組合 完整化方法的代價(jià)。
在信息表包含不完整數據較多的情況下,可能的測試方案將巨增。 (8)回歸(Regression) 基于完整的數據集,建立回歸方程(模型)。
對于包含空值的對象,將已知屬性值代入方程來(lái)估計未知屬性值,以此估計值 來(lái)進(jìn)行填充。當變量不是線(xiàn)性相關(guān)或預測變量高度相關(guān)時(shí)會(huì )導致有偏差的估計。
(9)期望值最大化方法(Expectation maximization,EM) EM算法是一種在不完全數據情況下計算極大似然估計或者后驗分布的迭代算法[43]。在每一迭代循環(huán)過(guò)程中交替執行兩個(gè)步 驟:E步(Excepctaion step,期望步),在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函 數的條件期望;M步(Maximzation step,極大化步),用極大化對數似然函數以確定參數的值,并用。
去百度文庫,查看完整內容>
內容來(lái)自用戶(hù):rjasd1128hf
4
統計教育
2006年第12期
缺失數據的多重插補方法
文/喬麗華傅德印
摘要:插補法是對缺失數據的調整方法,多重插補彌補了單一插補的缺陷,采用一系列可能的數據集來(lái)填充每一個(gè)缺失數據值,反映了缺失數據的不確定性。本文介紹了多重插補程序的三種數據插補方法:回歸預測法、傾向得分法和蒙特卡羅的馬氏鏈方法,并且對多重插補的插補效果進(jìn)行推斷,指出多重插補存在的問(wèn)題。
關(guān)鍵詞:多重插補;缺失數據
一、引言
在數據處理和數據分析中經(jīng)常會(huì )出現缺失數據(missingdata)或不完全數據(incompletedata),從抽樣調查的角度,把這些數據歸結為無(wú)回答數據集。一般把無(wú)回答分為“單位無(wú)回答”和“項目無(wú)回答”。“項目無(wú)回答”是指被調查單位雖然接受了調查,但只回答了其中的一部分而非全部的問(wèn)題,或者對某些項目提供的資料是無(wú)用的。對于“項目無(wú)回答”,如果重新調查來(lái)獲得準確數據,會(huì )浪費大量的時(shí)間、人力和財力,是不現實(shí)的。因此對“項目無(wú)回答”的彌補處理多采用插補法(imputationmethod)。
插補法是指采取一定的方式為調查中的每一個(gè)缺失數據尋找一個(gè)合理的替補值插補到原缺失數據的位置上,對得到的“完全數據集”使用完全數據統計分析方法分析并進(jìn)行統
收集方法
1、調查法
調查方法一般分為普查和抽樣調查兩大類(lèi)。
2、觀(guān)察法
主要包括兩個(gè)方面:一是對人的行為的觀(guān)察,二是對客觀(guān)事物的觀(guān)察。觀(guān)察法應用很廣泛,常和詢(xún)問(wèn)法、搜集實(shí)物結合使用,以提高所收集信息的可靠性。
3、實(shí)驗方法
實(shí)驗方法能通過(guò)實(shí)驗過(guò)程獲取其他手段難以獲得的信息或結論。
實(shí)驗方法也有多種形式,如實(shí)驗室實(shí)驗、現場(chǎng)實(shí)驗、計算機模擬實(shí)驗、計算機網(wǎng)絡(luò )環(huán)境下人機結合實(shí)驗等。現代管理科學(xué)中新興的管理實(shí)驗,現代經(jīng)濟學(xué)中正在形成的實(shí)驗經(jīng)濟學(xué)中的經(jīng)濟實(shí)驗,實(shí)質(zhì)上就是通過(guò)實(shí)驗獲取與管理或經(jīng)濟相關(guān)的信息。
4、文獻檢索
文獻檢索就是從浩繁的文獻中檢索出所需的信息的過(guò)程。文獻檢索分為手工檢索和計算機檢索。
5、網(wǎng)絡(luò )信息收集
網(wǎng)絡(luò )信息是指通過(guò)計算機網(wǎng)絡(luò )發(fā)布、傳遞和存儲的各種信息。收集網(wǎng)絡(luò )信息的最終目標是給廣大用戶(hù)提供網(wǎng)絡(luò )信息資源服務(wù),整個(gè)過(guò)程經(jīng)過(guò)網(wǎng)絡(luò )信息搜索、整合、保存和服務(wù)四個(gè)步驟,
參考資料來(lái)源:搜狗百科-信息收集
數據清洗目的主要有:
①解決數據質(zhì)量問(wèn)題;
②讓數據更適合做挖掘;
數據清洗是對數據審查過(guò)程中發(fā)現的明顯錯誤值、缺失值、異常值、可疑數據,選用一定方法進(jìn)行“清洗”,為后續的數據分析做準備。
數據清洗的方法有:
①數據數值化
對存在各種不同格式的數據形式的原始數據,對其進(jìn)行標準化操作。對字符串取值,按照ANSI碼值求和得到字符串的值,如果值太大,取一個(gè)適當的質(zhì)數對其求模。
②標準化 normalization
對整體數據進(jìn)行歸一化工作,利用min-max標準化方法將數據都映射到一個(gè)指定的數值區間。
③數據降維
原始數據存在很多維度,使用主成分分析法對數據的相關(guān)性分析來(lái)降低數據維度。
④數據完整性
數據完整性包括數據缺失補數據和數據去重;
補全數據的方法有:
1. 通過(guò)身份證件號碼推算性別、籍貫、出生日期、年齡(包括但不局限)等信息補全;
2. 通過(guò)前后數據補全;
3. 實(shí)在補不全的,對數據進(jìn)行剔除。
數據去重的方法有:
1. 用sql或者excel“去除重復記錄”去重;
2. 按規則去重,編寫(xiě)一系列的規則,對重復情況復雜的數據進(jìn)行去重。
1、均值插補。數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來(lái)插補缺失的值;如果缺失值是非定距型的,就根據統計學(xué)中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來(lái)補齊缺失的值。
2、利用同類(lèi)均值插補。同均值插補的方法都屬于單值插補,不同的是,它用層次聚類(lèi)模型預測缺失變量的類(lèi)型,再以該類(lèi)型的均值插補。假設X=(X1,X2。Xp)為信息完全的變量,Y為存在缺失值的變量。
那么首先對X或其子集行聚類(lèi),然后按缺失個(gè)案所屬類(lèi)來(lái)插補不同類(lèi)的均值。如果在以后統計分析中還需以引入的解釋變量和Y做分析,那么這種插補方法將在模型中引入自相關(guān),給分析造成障礙。
3、極大似然估計(Max Likelihood ,ML)。在缺失類(lèi)型為隨機缺失的條件下,假設模型對于完整的樣本是正確的,那么通過(guò)觀(guān)測數據的邊際分布可以對未知參數進(jìn)行極大似然估計(Little and Rubin)。
這種方法也被稱(chēng)為忽略缺失值的極大似然估計,對于極大似然的參數估計實(shí)際中常采用的計算方法是期望值最大化(Expectation Maximization,EM)。
4、多重插補(Multiple Imputation,MI)。多值插補的思想來(lái)源于貝葉斯估計,認為待插補的值是隨機的,它的值來(lái)自于已觀(guān)測到的值。具體實(shí)踐上通常是估計出待插補的值,然后再加上不同的噪聲,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。
擴展資料
缺失值產(chǎn)生的原因很多,裝備故障、無(wú)法獲取信息、與其他字段不一致、歷史原因等都可能產(chǎn)生缺失值。一種典型的處理方法是插值,插值之后的數據可看作服從特定概率分布。另外,也可以刪除所有含缺失值的記錄,但這個(gè)操作也從側面變動(dòng)了原始數據的分布特征。
對于缺失值的處理,從總體上來(lái)說(shuō)分為刪除存在缺失值的個(gè)案和缺失值插補。對于主觀(guān)數據,人將影響數據的真實(shí)性,存在缺失值的樣本的其他屬性的真實(shí)值不能保證,那么依賴(lài)于這些屬性值的插補也是不可靠的,所以對于主觀(guān)數據一般不推薦插補的方法。插補主要是針對客觀(guān)數據,它的可靠性有保證。
參考資料來(lái)源:百度百科-不確定性數據
參考資料來(lái)源:百度百科-缺失值
分析大數據,R語(yǔ)言和Linux系統比較有幫助,運用到的方法原理可以翻翻大學(xué)的統計學(xué),不需要完全理解,重在應用。
分析簡(jiǎn)單數據,Excel就可以了。Excel本意就是智能,功能很強,容易上手。我沒(méi)有見(jiàn)過(guò)有人說(shuō)自己精通Excel的,最多是熟悉Excel。Excel的函數可以幫助你處理大部分數據。
數據分析是指用適當的統計分析方法對收集來(lái)的大量數據進(jìn)行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數據分析可幫助人們作出判斷,以便采取適當行動(dòng)。
數據分析的數學(xué)基礎在20世紀早期就已確立,但直到計算機的出現才使得實(shí)際操作成為可能,并使得數據分析得以推廣。數據分析是數學(xué)與計算機科學(xué)相結合的產(chǎn)物。
“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷(xiāo)售數據時(shí)發(fā)現了一個(gè)令人難于理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無(wú)關(guān)系的商品會(huì )經(jīng)常出現在同一個(gè)購物籃中,這種獨特的銷(xiāo)售現象引起了管理人員的注意,經(jīng)過(guò)后續調查發(fā)現,這種現象出現在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買(mǎi)尿布。父親在購買(mǎi)尿布的同時(shí),往往會(huì )順便為自己購買(mǎi)啤酒,這樣就會(huì )出現啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì )出現在同一個(gè)購物籃的現象。如果這個(gè)年輕的父親在賣(mài)場(chǎng)只能買(mǎi)到兩件商品之一,則他很有可能會(huì )放棄購物而到另一家商店, 直到可以一次同時(shí)買(mǎi)到啤酒與尿布為止。沃爾瑪發(fā)現了這一獨特的現象,開(kāi)始在賣(mài)場(chǎng)嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶(hù)一次購買(mǎi)兩件商品、而不是一件,從而獲得了很好的商品銷(xiāo)售收入,這就是“啤酒與尿布” 故事的由來(lái)。
當然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學(xué)者Agrawal提出通過(guò)分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據商品之間的關(guān)系,找出客戶(hù)的購買(mǎi)行為。艾格拉沃從數學(xué)及計算機算法角度提 出了商品關(guān)聯(lián)關(guān)系的計算方法——Aprior算法。沃爾瑪從上個(gè)世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數據分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
一、數據挖掘工具分類(lèi)數據挖掘工具根據其適用的范圍分為兩類(lèi):專(zhuān)用挖掘工具和通用挖掘工具。
專(zhuān)用數據挖掘工具是針對某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案,在涉及算法的時(shí)候充分考慮了數據、需求的特殊性,并作了優(yōu)化。對任何領(lǐng)域,都可以開(kāi)發(fā)特定的數據挖掘工具。
例如,IBM公司的AdvancedScout系統針對NBA的數據,幫助教練優(yōu)化戰術(shù)組合。特定領(lǐng)域的數據挖掘工具針對性比較強,只能用于一種應用;也正因為針對性強,往往采用特殊的算法,可以處理特殊的數據,實(shí)現特殊的目的,發(fā)現的知識可靠度也比較高。
通用數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見(jiàn)的數據類(lèi)型。通用的數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見(jiàn)的數據類(lèi)型。
例如,IBM公司Almaden研究中心開(kāi)發(fā)的QUEST系統,SGI公司開(kāi)發(fā)的MineSet系統,加拿大SimonFraser大學(xué)開(kāi)發(fā)的DBMiner系統。通用的數據挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來(lái)挖掘都由用戶(hù)根據自己的應用來(lái)選擇。
二、數據挖掘工具選擇需要考慮的問(wèn)題數據挖掘是一個(gè)過(guò)程,只有將數據挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗與企業(yè)的業(yè)務(wù)邏輯和需求緊密結合,并在實(shí)施的過(guò)程中不斷的磨合,才能取得成功,因此我們在選擇數據挖掘工具的時(shí)候,要全面考慮多方面的因素,主要包括以下幾點(diǎn):(1)可產(chǎn)生的模式種類(lèi)的數量:分類(lèi),聚類(lèi),關(guān)聯(lián)等(2)解決復雜問(wèn)題的能力(3)操作性能(4)數據存取能力(5)和其他產(chǎn)品的接口三、數據挖掘工具介紹:1.QUESTQUEST是IBM公司Almaden研究中心開(kāi)發(fā)的一個(gè)多任務(wù)數據挖掘系統,目的是為新一代決策支持系統的應用開(kāi)發(fā)提供高效的數據開(kāi)采基本構件。系統具有如下特點(diǎn):提供了專(zhuān)門(mén)在大型數據庫上進(jìn)行各種開(kāi)采的功能:關(guān)聯(lián)規則發(fā)現、序列模式發(fā)現、時(shí)間序列聚類(lèi)、決策樹(shù)分類(lèi)、遞增式主動(dòng)開(kāi)采等。
各種開(kāi)采算法具有近似線(xiàn)性計算復雜度,可適用于任意大小的數據庫。算法具有找全性,即能將所有滿(mǎn)足指定類(lèi)型的模式全部尋找出來(lái)。
為各種發(fā)現功能設計了相應的并行算法。2.MineSetMineSet是由SGI公司和美國Standford大學(xué)聯(lián)合開(kāi)發(fā)的多任務(wù)數據挖掘系統。
MineSet集成多種數據挖掘算法和可視化工具,幫助用戶(hù)直觀(guān)地、實(shí)時(shí)地發(fā)掘、理解大量數據背后的知識。MineSet有如下特點(diǎn):MineSet以先進(jìn)的可視化顯示方法聞名于世。
支持多種關(guān)系數據庫。可以直接從Oracle、Informix、Sybase的表讀取數據,也可以通過(guò)SQL命令執行查詢(xún)。
多種數據轉換功能。在進(jìn)行挖掘前,MineSet可以去除不必要的數據項,統計、集合、分組數據,轉換數據類(lèi)型,構造表達式由已有數據項生成新的數據項,對數據采樣等。
操作簡(jiǎn)單、支持國際字符、可以直接發(fā)布到Web。3.DBMinerDBMiner是加拿大SimonFraser大學(xué)開(kāi)發(fā)的一個(gè)多任務(wù)數據挖掘系統,它的前身是DBLearn。
該系統設計的目的是把關(guān)系數據庫和數據開(kāi)采集成在一起,以面向屬性的多級概念為基礎發(fā)現各種知識。DBMiner系統具有如下特色:能完成多種知識的發(fā)現:泛化規則、特性規則、關(guān)聯(lián)規則、分類(lèi)規則、演化知識、偏離知識等。
綜合了多種數據開(kāi)采技術(shù):面向屬性的歸納、統計分析、逐級深化發(fā)現多級規則、元規則引導發(fā)現等方法。提出了一種交互式的類(lèi)SQL語(yǔ)言——數據開(kāi)采查詢(xún)語(yǔ)言DMQL。
能與關(guān)系數據庫平滑集成。實(shí)現了基于客戶(hù)/服務(wù)器體系結構的Unix和PC(Windows/NT)版本的系統。
4.IntelligentMiner由美國IBM公司開(kāi)發(fā)的數據挖掘軟件IntelligentMiner是一種分別面向數據庫和文本信息進(jìn)行數據挖掘的軟件系列,它包括和。可以挖掘包含在數據庫、數據倉庫和數據中心中的隱含信息,幫助用戶(hù)利用傳統數據庫或普通文件中的結構化數據進(jìn)行數據挖掘。
它已經(jīng)成功應用于市場(chǎng)分析、詐騙行為監測及客戶(hù)聯(lián)系管理等;允許企業(yè)從文本信息進(jìn)行數據挖掘,文本數據源可以是文本文件、Web頁(yè)面、電子郵件、LotusNotes數據庫等等。5.SASEnterpriseMiner這是一種在我國的企業(yè)中得到采用的數據挖掘工具,比較典型的包括上海寶鋼配礦系統應用和鐵路部門(mén)在春運客運研究中的應用。
SASEnterpriseMiner是一種通用的數據挖掘工具,按照"抽樣--探索--轉換--建模--評估"的方法進(jìn)行數據挖掘。可以與SAS數據倉庫和OLAP集成,實(shí)現從提出數據、抓住數據到得到解答的"端到端"知識發(fā)現。
6.是一個(gè)開(kāi)放式數據挖掘工具,曾兩次獲得英國政府SMART創(chuàng )新獎,它不但支持整個(gè)數據挖掘流程,從數據獲取、轉化、建模、評估到最終部署的全部過(guò)程,還支持數據挖掘的行業(yè)標準--CRISP-DM。Clementine的可視化數據挖掘使得"思路"分析成為可能,即將集中精力在要解決的問(wèn)題本身,而不是局限于完成一些技術(shù)性工作(比如編寫(xiě)代碼)。
提供了多種圖形化技術(shù),有助理解數據間的關(guān)鍵性聯(lián)系,指導用戶(hù)以最便捷的途徑找到問(wèn)題的最終解決法。7.數據庫廠(chǎng)商集成的挖掘工具SQLServer2000包含由Microsoft研究院開(kāi)發(fā)的兩種數據挖掘算法:。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.335秒