統計方法有:
1、計量資料的統計方法
分析計量資料的統計分析方法可分為參數檢驗法和非參數檢驗法。
參數檢驗法主要為t檢驗和 方差分析(ANOVN,即F檢驗)等,兩組間均數比較時(shí)常用t檢驗和u檢驗,兩組以上均數比較時(shí)常用方差分析;非參數檢驗法主要包括秩和檢驗等。t檢驗可分為單組設計資料的t檢驗、配對設計資料的t檢驗和成組設計資料的t檢驗;當兩個(gè)小 樣本比較時(shí)要求兩 總體分布為 正態(tài)分布且方差齊性,若不能滿(mǎn)足以上要求,宜用t 檢驗或非參數方法( 秩和檢驗)。 方差分析可用于兩個(gè)以上 樣本均數的比較,應用該方法時(shí),要求各個(gè)樣本是相互獨立的隨機樣本,各樣本來(lái)自正態(tài)總體且各處理組總體方差齊性。根據設計類(lèi)型不同,方差分析中又包含了多種不同的方法。對于 定量資料,應根據所采用的設計類(lèi)型、資料所具備的條件和分析目的,選用合適的統計分析方法,不應盲目套用t檢驗和 單因素方差分析。
2、計數資料的統計方法
計數資料的統計方法主要針對四格表和R*C表利用檢驗進(jìn)行分析。
檢驗或u檢驗,若不能滿(mǎn)足 檢驗:當計數資料呈配對設計時(shí),獲得的四格表為配對四格表,其用到的檢驗公式和校正公式可參考書(shū)籍。 R*C表可以分為雙向無(wú)序,單向有序、雙向有序屬性相同和雙向有序屬性不同四類(lèi),不同類(lèi)的行列表根據其研究目的,其選擇的方法也不一樣。
3、等級資料的統計方法
等級資料(有序變量)是對性質(zhì)和類(lèi)別的等級進(jìn)行分組,再清點(diǎn)每組觀(guān)察單位個(gè)數所得到的資料。在臨床醫學(xué)資料中,常遇到一些定性指標,如臨床療效的評價(jià)、疾病的臨床分期、病癥嚴重程度的臨床分級等,對這些指標常采用分成若干個(gè)等級然后分類(lèi)計數的辦法來(lái)解決它的量化問(wèn)題,這樣的資料統計上稱(chēng)為等級資料。
統計方法的選擇:
統計資料豐富且錯綜復雜,要想做到合理選用統計分析方法并非易事。對于同一 個(gè)資料,若選擇不同的統計分析方法處理,有時(shí)其結論是截然不同的。
正確選擇統計方法的依據是:
①根據研究的目的,明確研究試驗設計類(lèi)型、研究因素與水平數;
②確定數據特征(是否正態(tài)分布等)和樣本量大小;
③ 正確判斷統計資料所對應的類(lèi)型(計量、計數和等級資料),同時(shí)應根據統計方法的適宜條件進(jìn)行正確的統計量值計算;
最后,還要根據專(zhuān)業(yè)知識與資料的實(shí)際情況,結合統計學(xué)原則,靈活地選擇統計分析方法。
利用直接記錄或分析系統的輸入和輸出信號的方法估計系統的非參數模型。所謂非參數模型是指系統的數學(xué)模型中非顯式地包含可估參數。例如,系統的頻率響應、脈沖響應、階躍響應等都是非參數模型。非參數模型通常以響應曲線(xiàn)或離散值形式表示。非參數模型的辨識可通過(guò)直接記錄系統輸出對輸入的響應過(guò)程來(lái)進(jìn)行;也可通過(guò)分析輸入與輸出的自相關(guān)和互相關(guān)函數(見(jiàn)相關(guān)分析法建模),或它們的自功率譜和互功率譜函數(見(jiàn)頻譜分析方法建模)來(lái)間接地估計。非參數模型是經(jīng)典控制理論中常用的描述線(xiàn)性系統的數學(xué)模型。傳遞函數反映輸入與輸出的拉普拉斯變換在復數域上的響應關(guān)系,頻率響應反映它們的傅里葉變換在頻率域上的響應關(guān)系,而脈沖響應和階躍響應則是在時(shí)域上的響應關(guān)系。它們從不同的方面反映系統的動(dòng)態(tài)特性。非參數模型比參數化模型直觀(guān),辨識非參數模型的方法和計算也比辨識參數化模型的簡(jiǎn)單。脈沖響應可以用直接記錄輸入脈沖函數的輸出響應的方法來(lái)辨識;頻率響應也可以直接利用單頻正弦輸入信號的響應來(lái)辨識。但是這種直接辨識方法只能應用于無(wú)隨機噪聲的確定性系統。對于有隨機噪聲的系統或隨機輸入信號,必須使用相關(guān)分析法或功率譜分析方法。隨著(zhù)快速傅里葉變換儀、偽隨機信號發(fā)生器和相關(guān)儀的問(wèn)世,辨識系統的非參數模型已變得比較容易。但非參數模型應用于實(shí)時(shí)控制和適應性控制仍不如參數化模型方便。非參數模型在某些情形下,可以轉化為參數模型。例如,如果一個(gè)系統的傳遞函數可以表示為有理分式H(s)=K/(a+s),則系統的模型可以用常微分方程y'+ay=ku表示,a與k為 p=m/(n+1)*100%
待估計的模型參數,這是參數化模型。又如,對于離散系統的權函數序列(離散脈沖響應序列){hi,i=0,1,…},如果在i充分大(如i>N0),而│hi│充分小時(shí),則模型可以表示為并可用最小二乘法給出有窮權函數序列{hi,i=0,1,…N0}的估計。一般說(shuō)來(lái),由參數模型容易獲得非參數的脈沖響應或頻率響應,但由非參數模型化為參數模型則要困難得多。
1、穩健回歸其主要思路是將對異常值十分敏感的經(jīng)典最小二乘回歸中的目標函數進(jìn)行修改。
經(jīng)典最小二乘回歸以使誤差平方和達到最小為其目標函數。因為方差為一不穩健統計量,故最小二乘回歸是一種不穩健的方法。
為減少異常點(diǎn)的作用,對不同的點(diǎn)施加不同的權重,殘差小的點(diǎn)權重大,殘差大的店權重小。2、變系數回歸 地理位置加權3、偏最小二乘回歸長(cháng)期以來(lái),模型式的方法和認識性的方法之間的界限分得十分清楚。
而偏最小二乘法則把它們有機的結合起來(lái)了,在一個(gè)算法下,可以同時(shí)實(shí)現回歸建模(多元線(xiàn)性回歸)、數據結構簡(jiǎn)化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。偏最小二乘法在統計應用中的重要性體現在以下幾個(gè)方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。
偏最小二乘法可以較好的解決許多以往用普通多元回歸無(wú)法解決的問(wèn)題。偏最小二乘法之所以被稱(chēng)為第二代回歸方法,還由于它可以實(shí)現多種數據分析方法的綜合應用。
能夠消除自變量選取時(shí)可能存在的多重共線(xiàn)性問(wèn)題。普通最小二乘回歸方法在自變量間存在嚴重的多重共線(xiàn)性時(shí)會(huì )失效。
自變量的樣本數與自變量個(gè)數相比過(guò)少時(shí)仍可進(jìn)行預測。4、支持向量回歸 能較好地解決小樣本、非線(xiàn)性、高維數和局部極小點(diǎn)等實(shí)際問(wèn)題。
傳統的化學(xué)計量學(xué)算法處理回歸建模問(wèn)題在擬合訓練樣本時(shí),要求“殘差平方和”最小,這樣將有限樣本數據中的誤差也擬合進(jìn)了數學(xué)模型,易產(chǎn)生“過(guò)擬合”問(wèn)題,針對傳統方法這一不足之處,SVR采用“ε不敏感函數”來(lái)解決“過(guò)擬合”問(wèn)題,即f(x)用擬合目標值yk時(shí),取:f(x) =∑SVs(αi-α*i)K(xi,x) 上式中αi和α*i為支持向量對應的拉格朗日待定系數,K(xi,x)是采用的核函數[18],x為未知樣本的特征矢量,xi為支持向量(擬合函數周?chē)摩拧肮鼙凇鄙系奶卣魇噶浚琒Vs為支持向量的數目.目標值yk擬合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε時(shí),即認為進(jìn)一步擬合是無(wú)意義的。5、核回歸 核函數回歸的最初始想法是用非參數方法來(lái)估計離散觀(guān)測情況下的概率密度函數(pdf)。
為了避免高維空間中的內積運算 由Mercer條件,存在映射函數a和核函數K(?,?),使得:=K(xi ,x)采用不同的函數作為SVM的核函數K (x i,x),可以實(shí)現多種從輸入空間到特征空間的非線(xiàn)性映射形式6、嶺回歸 嶺回歸分析是一種專(zhuān)用于共線(xiàn)性數據分析的有偏估計回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計法,通過(guò)放棄最小二乘法的無(wú)偏性,以損失部分信息、降低精度為代價(jià)獲得回歸系數更為符合實(shí)際、更可靠的回歸方法,對病態(tài)數據的耐受性遠遠強于最小二乘法。7、半參數回歸 模型既含有參數分量又含有非參數分量,其參數部分用來(lái)解釋函數關(guān)系已知的部分,它是觀(guān)測值中的主要成分,而其非參數部分則描述函數關(guān)系未知,無(wú)法表達為待定參數的函數部分。
8、自回歸例1.Yt = α+β0Xt +β1Xt-1 +……+βsXt-s + ut,例2.Yt = f (Yt-1, Yt-2, … , X2t, X3t, … ) ,滯后的因變量(內生變量)作為解釋變量出現在方程的右端。這種包含了內生變量滯后項的模型稱(chēng)為自回歸模型。
9、正交回歸 因素水平值在區間[Zj1, Zj2]內變化,經(jīng)編碼之后,編碼值xi在區間[-1,+1]間變化,將響應值y原來(lái)對Z1, Z2……Zm的回歸問(wèn)題,轉化為y對x1,x2……xm的回歸問(wèn)題。它的主要優(yōu)點(diǎn)是可以把實(shí)驗或計算的安排、數據的處理和回歸方程的精度統一起來(lái)加以考慮,根據實(shí)驗目的和數據分析來(lái)選擇實(shí)驗或計算點(diǎn),不僅使得在每個(gè)實(shí)驗或計算點(diǎn)上獲得的數據含有最大的信息,從而減少實(shí)驗或計算次數,而且使數據的統計分析具有一些較好的性質(zhì),以較少的實(shí)驗或計算建立精度較高的回歸方程。
10、逐步回歸 實(shí)際問(wèn)題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著(zhù)的自變量來(lái)建立回歸模型,這就涉及到變量選擇的問(wèn)題,逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。基本思路為,先確定一初始子集,然后每次從子集外影響顯著(zhù)的變量中引入一個(gè)對y 影響最大的,再對原來(lái)子集中的變量進(jìn)行檢驗,從變得不顯著(zhù)的變量中剔除一個(gè)影響最小的,直到不能引入和剔除為止。
11、主成分回歸 在統計學(xué)中,主成分分析是一種簡(jiǎn)化數據集的技術(shù)。它是一個(gè)線(xiàn)性變換。
這個(gè)變換把數據變換到一個(gè)新的坐標系統中,使得任何數據投影的第一大方差在第一個(gè)坐標(稱(chēng)為第一主成分)上,第二大方差在第二個(gè)坐標(第二主成分)上,依次類(lèi)推。 首先對X陣進(jìn)行主成份分析,T陣的維數可以與X陣相同,如果使用整個(gè)T陣參加回歸,這樣得到的結果與多元線(xiàn)性回歸沒(méi)有多大的差別。
因為主成分(新變量)是原變量的線(xiàn)性組合。前面的k個(gè)主成份包含了X矩陣的絕大部分有用信息,而后面的主成份則往往與噪聲和干擾因素有關(guān)。
因此參與回歸的是少數主成分組成的矩陣。在維數上遠小于X。
主成分回歸通過(guò)對參與回歸的主成份的合理選擇,可以去掉噪音。主成份間相互正交,解決了多元線(xiàn)性回歸中的共線(xiàn)性問(wèn)題。
主成分回歸能夠充分利用數據信息,有效地提高模型的抗干擾能力。
1/6分步閱讀1.線(xiàn)性回歸方法:通常因變量和一個(gè)(或者多個(gè))自變量之間擬合出來(lái)是一條直線(xiàn)(回歸線(xiàn)),通常可以用一個(gè)普遍的公式來(lái)表示:Y(因變量)=a*X(自變量)+b+c,其中b表示截距,a表示直線(xiàn)的斜率,c是誤差項。
如下圖所示。?2/62.邏輯回歸方法:通常是用來(lái)計算“一個(gè)事件成功或者失敗”的概率,此時(shí)的因變量一般是屬于二元型的(1 或0,真或假,有或無(wú)等)變量。
以樣本極大似然估計值來(lái)選取參數,而不采用最小化平方和誤差來(lái)選擇參數,所以通常要用log等對數函數去擬合。如下圖。
?3/63.多項式回歸方法:通常指自變量的指數存在超過(guò)1的項,這時(shí)候最佳擬合的結果不再是一條直線(xiàn)而是一條曲線(xiàn)。比如:拋物線(xiàn)擬合函數Y=a+b*X^2,如下圖所示。
?4/64.嶺回歸方法:通常用于自變量數據具有高度相關(guān)性的擬合中,這種回歸方法可以在原來(lái)的偏差基礎上再增加一個(gè)偏差度來(lái)減小總體的標準偏差。如下圖是其收縮參數的最小誤差公式。
?5/65.套索回歸方法:通常也是用來(lái)二次修正回歸系數的大小,能夠減小參量變化程度以提高線(xiàn)性回歸模型的精度。如下圖是其懲罰函數,注意這里的懲罰函數用的是絕對值,而不是絕對值的平方。
?6/66.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來(lái)訓練,使用L2優(yōu)先作為正則化矩陣。當相關(guān)的特征有很多個(gè)時(shí),ElasticNet不同于Lasso,會(huì )選擇兩個(gè)。
如下圖是其常用的理論公式。?。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.604秒