一、描述性統計
描述性統計是一類(lèi)統計方法的匯總,揭示了數據分布特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹(shù)法。
2、正態(tài)性檢驗:很多統計方法都要求數值服從或近似服從正態(tài)分布,所以在做數據分析之前需要進(jìn)行正態(tài)性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動(dòng)差法。
二、回歸分析
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀(guān)測數據建立變量間適當的依賴(lài)關(guān)系,以分析數據內在規律。
1. 一元線(xiàn)性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線(xiàn)性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線(xiàn)性回歸模型要求因變量是連續的正態(tài)分布變量,且自變量和因變量呈線(xiàn)性關(guān)系,而Logistic回歸模型對因變量的分布沒(méi)有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線(xiàn)性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來(lái)自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗有多個(gè)影響因素,分析多個(gè)影響因素與響應變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3. 多因素無(wú)交互方差分析:分析多個(gè)影響因素與響應變量的關(guān)系,但是影響因素之間沒(méi)有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進(jìn)行方差分析,是將線(xiàn)性回歸與方差分析結合起來(lái)的一種分析方法。
四、假設檢驗
1. 參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(如均值、百分數、方差、相關(guān)系數等)進(jìn)行的檢驗 。
2. 非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗。
適用情況:順序類(lèi)型的數據資料,這類(lèi)數據的分布形態(tài)一般是未知的。
1)雖然是連續數據,但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數據也是連續類(lèi)型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
定性數據(Qualitativedata):包括分類(lèi)數據和順序數據,是一組表示事物性質(zhì)、規定事物類(lèi)別的文字表述型數據,不能將其量化,只能將其定性。
定性數據說(shuō)明的是事物的品質(zhì)特征,是不能用數值表示的,通常表現為類(lèi)別.定量數據說(shuō)明的是現象的數量特征,是必須用數值來(lái)表現的.分為離散數據(Discretedata)和連續數據().定性分析與定量分析應該是統一的,相互補充的;定性分析是定量分析的基本前提,沒(méi)有定性的定量是一種盲目的、毫無(wú)價(jià)值的定量;定量分析使定性分析更加科學(xué)、準確,它可以促使定性分析得出廣泛而深入的結論。
數據分析落實(shí)到實(shí)處,一般就是圍繞用戶(hù)漏斗展開(kāi)的。也就是人們常說(shuō)的訪(fǎng)問(wèn)-激活-留存-交易-推薦。
這核心的5步會(huì )有不同維度的細分。
獲客:來(lái)源、渠道、關(guān)鍵字、著(zhù)陸頁(yè)、地域、設備、訪(fǎng)問(wèn)時(shí)間、跳出率、訪(fǎng)問(wèn)深度、停留時(shí)間、新客量等等;
激活:DAU(日活躍用戶(hù))、MAU(月活躍用戶(hù))
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數據,可以通過(guò)ptengine通過(guò)漏斗細分得到可視化圖表。一般來(lái)講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數據和當年第一周)即可獲得數據的變化情況。
以上,其實(shí)不用很專(zhuān)業(yè)也能做好數據分析,獲取數據并不難,難的是你能洞察數據背后的意義。
分析大數據,R語(yǔ)言和Linux系統比較有幫助,運用到的方法原理可以翻翻大學(xué)的統計學(xué),不需要完全理解,重在應用。
分析簡(jiǎn)單數據,Excel就可以了。Excel本意就是智能,功能很強,容易上手。我沒(méi)有見(jiàn)過(guò)有人說(shuō)自己精通Excel的,最多是熟悉Excel。Excel的函數可以幫助你處理大部分數據。
數據分析是指用適當的統計分析方法對收集來(lái)的大量數據進(jìn)行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數據分析可幫助人們作出判斷,以便采取適當行動(dòng)。
數據分析的數學(xué)基礎在20世紀早期就已確立,但直到計算機的出現才使得實(shí)際操作成為可能,并使得數據分析得以推廣。數據分析是數學(xué)與計算機科學(xué)相結合的產(chǎn)物。
“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷(xiāo)售數據時(shí)發(fā)現了一個(gè)令人難于理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無(wú)關(guān)系的商品會(huì )經(jīng)常出現在同一個(gè)購物籃中,這種獨特的銷(xiāo)售現象引起了管理人員的注意,經(jīng)過(guò)后續調查發(fā)現,這種現象出現在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買(mǎi)尿布。父親在購買(mǎi)尿布的同時(shí),往往會(huì )順便為自己購買(mǎi)啤酒,這樣就會(huì )出現啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì )出現在同一個(gè)購物籃的現象。如果這個(gè)年輕的父親在賣(mài)場(chǎng)只能買(mǎi)到兩件商品之一,則他很有可能會(huì )放棄購物而到另一家商店, 直到可以一次同時(shí)買(mǎi)到啤酒與尿布為止。沃爾瑪發(fā)現了這一獨特的現象,開(kāi)始在賣(mài)場(chǎng)嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶(hù)一次購買(mǎi)兩件商品、而不是一件,從而獲得了很好的商品銷(xiāo)售收入,這就是“啤酒與尿布” 故事的由來(lái)。
當然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學(xué)者Agrawal提出通過(guò)分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據商品之間的關(guān)系,找出客戶(hù)的購買(mǎi)行為。艾格拉沃從數學(xué)及計算機算法角度提 出了商品關(guān)聯(lián)關(guān)系的計算方法——Aprior算法。沃爾瑪從上個(gè)世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數據分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
現實(shí)中的很多現象可以劃分為兩種可能,或者歸結為兩種狀態(tài),這兩種狀態(tài)分別用0和1表示。如果我們采用多個(gè)因素對0-1表示的某種現象進(jìn)行因果關(guān)系解釋?zhuān)涂赡軕玫絣ogistic回歸。
1、把所有變量代如回歸方程,逐步回歸分析,必要是多用幾種篩選變量得技術(shù),同時(shí)要考慮因素得交互作用,綜合分析”
2、單因素分析的結果和多因素分析的結果不一樣是很正常的事情,因為單因素分析往往存在混雜因素的影響
3、要明白在建立多元回歸模型之前,單因素分析的主要作用是起到篩選的作用,通常選取p小于0.1或者0.2的因素進(jìn)入多元回歸模型,而多元回歸模型中偏回歸系數有意義才是真正的有意義;
借助工具,未至科技魔方是一款大數據模型平臺,是一款基于服務(wù)總線(xiàn)與分布式云計算兩大技術(shù)架構的一款數據分析、挖掘的工具平臺,其采用分布式文件系統對數據進(jìn)行存儲,支持海量數據的處理。
采用多種的數據采集技術(shù),支持結構化數據及非結構化數據的采集。通過(guò)圖形化的模型搭建工具,支持流程化的模型配置。
通過(guò)第三方插件技術(shù),很容易將其他工具及服務(wù)集成到平臺中去。數據分析研判平臺就是海量信息的采集,數據模型的搭建,數據的挖掘、分析最后形成知識服務(wù)于實(shí)戰、服務(wù)于決策的過(guò)程,平臺主要包括數據采集部分,模型配置部分,模型執行部分及成果展示部分等。
原發(fā)布者:婷婷_709
醫學(xué)統計學(xué)各種資料比較選擇方法小結來(lái)源:桑苗的日志一、兩組或多組計量資料的比較1.兩組資料:1)大樣本資料或服從正態(tài)分布的小樣本資料(1)若方差齊性,則作成組t檢驗(2)若方差不齊,則作t'檢驗或用成組的Wilcoxon秩和檢驗2)小樣本偏態(tài)分布資料,則用成組的Wilcoxon秩和檢驗2.多組資料:1)若大樣本資料或服從正態(tài)分布,并且方差齊性,則作完全隨機的方差分析。如果方差分析的統計檢驗為有統計學(xué)意義,則進(jìn)一步作統計分析:選擇合適的方法(如:LSD檢驗,Bonferroni檢驗等)進(jìn)行兩兩比較。2)如果小樣本的偏態(tài)分布資料或方差不齊,則作KruskalWallis的統計檢驗。如果KruskalWallis的統計檢驗為有統計學(xué)意義,則進(jìn)一步作統計分析:選擇合適的方法(如:用成組的Wilcoxon秩和檢驗,但用Bonferroni方法校正P值等)進(jìn)行兩兩比較。二、分類(lèi)資料的統計分析1.單樣本資料與總體比較1)二分類(lèi)資料:(1)小樣本時(shí):用二項分布進(jìn)行確切概率法檢驗;(2)大樣本時(shí):用U檢驗。2)多分類(lèi)資料:用Pearsonc2檢驗(又稱(chēng)擬合優(yōu)度檢驗)。2.四格表資料1)n>40并且所以理論數大于5,則用Pearsonc22)n>40并且所以理論數大于1并且至少存在一個(gè)理論數<5,則用校正c2或用Fisher's確切概率法檢驗3)n£40或存在理論數<1,則用Fisher's檢驗3.2*C表資料的統計分析1)列變量為效應指標,并且為有序多分類(lèi)變量,行變量為分組變量,則行評分的CMHc2或成組的Wilcoxon秩和檢驗2)列變量為效應指標并且為二分類(lèi),列變
利用數據挖掘進(jìn)行數據分析常用的方法主要有分類(lèi)、回歸分析、聚類(lèi)、關(guān)聯(lián)規則、特征、變化和偏差分析、Web頁(yè)挖掘等, 它們分別從不同的角度對數據進(jìn)行挖掘。
①分類(lèi)。分類(lèi)是找出數據庫中一組數據對象的共同特點(diǎn)并按照分類(lèi)模式將其劃分為不同的類(lèi),其目的是通過(guò)分類(lèi)模型,將數據庫中的數據項映射到某個(gè)給定的類(lèi)別。它可以應用到客戶(hù)的分類(lèi)、客戶(hù)的屬性和特征分析、客戶(hù)滿(mǎn)意度分析、客戶(hù)的購買(mǎi)趨勢預測等,如一個(gè)汽車(chē)零售商將客戶(hù)按照對汽車(chē)的喜好劃分成不同的類(lèi),這樣營(yíng)銷(xiāo)人員就可以將新型汽車(chē)的廣告手冊直接郵寄到有這種喜好的客戶(hù)手中,從而大大增加了商業(yè)機會(huì )。
②回歸分析。回歸分析方法反映的是事務(wù)數據庫中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數據項映射到一個(gè)實(shí)值預測變量的函數,發(fā)現變量或屬性間的依賴(lài)關(guān)系,其主要研究問(wèn)題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關(guān)關(guān)系等。它可以應用到市場(chǎng)營(yíng)銷(xiāo)的各個(gè)方面,如客戶(hù)尋求、保持和預防客戶(hù)流失活動(dòng)、產(chǎn)品生命周期分析、銷(xiāo)售趨勢預測及有針對性的促銷(xiāo)活動(dòng)等。
③聚類(lèi)。聚類(lèi)分析是把一組數據按照相似性和差異性分為幾個(gè)類(lèi)別,其目的是使得屬于同一類(lèi)別的數據間的相似性盡可能大,不同類(lèi)別中的數據間的相似性盡可能小。它可以應用到客戶(hù)群體的分類(lèi)、客戶(hù)背景分析、客戶(hù)購買(mǎi)趨勢預測、市場(chǎng)的細分等。
④關(guān)聯(lián)規則。關(guān)聯(lián)規則是描述數據庫中數據項之間所存在的關(guān)系的規則,即根據一個(gè)事務(wù)中某些項的出現可導出另一些項在同一事務(wù)中也出現,即隱藏在數據間的關(guān)聯(lián)或相互關(guān)系。在客戶(hù)關(guān)系管理中,通過(guò)對企業(yè)的客戶(hù)數據庫里的大量數據進(jìn)行挖掘,可以從大量的記錄中發(fā)現有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷(xiāo)效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶(hù)群,客戶(hù)尋求、細分與保持,市場(chǎng)營(yíng)銷(xiāo)與推銷(xiāo),營(yíng)銷(xiāo)風(fēng)險評估和詐騙預測等決策支持提供參考依據。
⑤特征。特征分析是從數據庫中的一組數據中提取出關(guān)于這些數據的特征式,這些特征式表達了該數據集的總體特征。如營(yíng)銷(xiāo)人員通過(guò)對客戶(hù)流失因素的特征提取,可以得到導致客戶(hù)流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶(hù)的流失。
⑥變化和偏差分析。偏差包括很大一類(lèi)潛在有趣的知識,如分類(lèi)中的反常實(shí)例,模式的例外,觀(guān)察結果對期望的偏差等,其目的是尋找觀(guān)察結果與參照量之間有意義的差別。在企業(yè)危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發(fā)現、分析、識別、評價(jià)和預警等方面。
⑦Web頁(yè)挖掘。隨著(zhù)Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無(wú)比豐富,通過(guò)對Web的挖掘,可以利用Web 的海量數據進(jìn)行分析,收集政治、經(jīng)濟、政策、科技、金融、各種市場(chǎng)、競爭對手、供求信息、客戶(hù)等有關(guān)的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內部經(jīng)營(yíng)信息,并根據分析結果找出企業(yè)管理過(guò)程中出現的各種問(wèn)題和可能引起危機的先兆,對這些信息進(jìn)行分析和處理,以便識別、分析、評價(jià)和管理危機。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.442秒