常見(jiàn)的預測方法有單點(diǎn)預測,即確定性預測;區間預測;和概率預測三種方法。
單點(diǎn)預測,顧名思義,只能給出一個(gè)預測值,不能表達該預測值的可信度;
區間預測在單點(diǎn)預測的基礎上,給出某次預測值在某一區間上的可信度,即能夠給出一個(gè)預測范圍,以及以多大的可能性落在這個(gè)范圍;
概率預測是咋區間預測的基礎上,給出一個(gè)概率分布,預測出所有可能出現的結果,以及對應的概率。這種方法比較全面,能夠給出全局信息,適于風(fēng)險相關(guān)的分析。目前在氣象、地震、水文和農業(yè)相關(guān)方面用的比較多。
一、描述性統計
描述性統計是一類(lèi)統計方法的匯總,揭示了數據分布特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹(shù)法。
2、正態(tài)性檢驗:很多統計方法都要求數值服從或近似服從正態(tài)分布,所以在做數據分析之前需要進(jìn)行正態(tài)性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動(dòng)差法。
二、回歸分析
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀(guān)測數據建立變量間適當的依賴(lài)關(guān)系,以分析數據內在規律。
1. 一元線(xiàn)性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線(xiàn)性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線(xiàn)性回歸模型要求因變量是連續的正態(tài)分布變量,且自變量和因變量呈線(xiàn)性關(guān)系,而Logistic回歸模型對因變量的分布沒(méi)有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線(xiàn)性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來(lái)自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗有多個(gè)影響因素,分析多個(gè)影響因素與響應變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3. 多因素無(wú)交互方差分析:分析多個(gè)影響因素與響應變量的關(guān)系,但是影響因素之間沒(méi)有影響關(guān)系或忽略影響關(guān)系
4. 協(xié)方差分祈:傳統的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進(jìn)行方差分析,是將線(xiàn)性回歸與方差分析結合起來(lái)的一種分析方法。
四、假設檢驗
1. 參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(如均值、百分數、方差、相關(guān)系數等)進(jìn)行的檢驗 。
2. 非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗。
適用情況:順序類(lèi)型的數據資料,這類(lèi)數據的分布形態(tài)一般是未知的。
1)雖然是連續數據,但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數據也是連續類(lèi)型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
一、掌握基礎、更新知識。
基本技術(shù)怎么強調都不過(guò)分。這里的術(shù)更多是(計算機、統計知識), 多年做數據分析、數據挖掘的經(jīng)歷來(lái)看、以及業(yè)界朋友的交流來(lái)看,這點(diǎn)大家深有感觸的。
數據庫查詢(xún)—SQL 數據分析師在計算機的層面的技能要求較低,主要是會(huì )SQL,因為這里解決一個(gè)數據提取的問(wèn)題。有機會(huì )可以去逛逛一些專(zhuān)業(yè)的數據論壇,學(xué)習一些SQL技巧、新的函數,對你工作效率的提高是很有幫助的。
統計知識與數據挖掘 你要掌握基礎的、成熟的數據建模方法、數據挖掘方法。例如:多元統計:回歸分析、因子分析、離散等,數據挖掘中的:決策樹(shù)、聚類(lèi)、關(guān)聯(lián)規則、神經(jīng)網(wǎng)絡(luò )等。
但是還是應該關(guān)注一些博客、論壇中大家對于最新方法的介紹,或者是對老方法的新運用,不斷更新自己知識,才能跟上時(shí)代,也許你工作中根本不會(huì )用到,但是未來(lái)呢?行業(yè)知識 如果數據不結合具體的行業(yè)、業(yè)務(wù)知識,數據就是一堆數字,不代表任何東西。是冷冰冰,是不會(huì )產(chǎn)生任何價(jià)值的,數據驅動(dòng)營(yíng)銷(xiāo)、提高科學(xué)決策一切都是空的。
一名數據分析師,一定要對所在行業(yè)知識、業(yè)務(wù)知識有深入的了解。例如:看到某個(gè)數據,你首先必須要知道,這個(gè)數據的統計口徑是什么?是如何取出來(lái)的?這個(gè)數據在這個(gè)行業(yè), 在相應的業(yè)務(wù)是在哪個(gè)環(huán)節是產(chǎn)生的?數值的代表業(yè)務(wù)發(fā)生了什么(背景是什么)?對于A(yíng)部門(mén)來(lái)說(shuō),本月新會(huì )員有10萬(wàn),10萬(wàn)好還是不好呢?先問(wèn)問(wèn)上面的這個(gè)問(wèn)題:對于A(yíng)部門(mén),1、新會(huì )員的統計口徑是什么。
第一次在使用A部門(mén)的產(chǎn)品的會(huì )員?還是在站在公司角度上說(shuō),第一次在公司發(fā)展業(yè)務(wù)接觸的會(huì )員?2、是如何統計出來(lái)的。A:時(shí)間;是通過(guò)創(chuàng )建時(shí)間,還是業(yè)務(wù)完成時(shí)間。
B:業(yè)務(wù)場(chǎng)景。是只要與業(yè)務(wù)發(fā)接觸,例如下了單,還是要業(yè)務(wù)完成后,到成功支付。
3、這個(gè)數據是在哪個(gè)環(huán)節統計出來(lái)。在注冊環(huán)節,在下單環(huán)節,在成功支付環(huán)節。
4、這個(gè)數據代表著(zhù)什么。10萬(wàn)高嗎?與歷史相同比較?是否做了營(yíng)銷(xiāo)活動(dòng)?這個(gè)行業(yè)處理行業(yè)生命同期哪個(gè)階段?在前面二點(diǎn),更多要求你能按業(yè)務(wù)邏輯,來(lái)進(jìn)行數據的提取(更多是寫(xiě)SQL代碼從數據庫取出數據)。
后面二點(diǎn),更重要是對業(yè)務(wù)了解,更行業(yè)知識了解,你才能進(jìn)行相應的數據解讀,才能讓數據產(chǎn)生真正的價(jià)值,不是嗎?對于新進(jìn)入數據行業(yè)或者剛進(jìn)入數據行業(yè)的朋友來(lái)說(shuō):行業(yè)知識都重要,也許你看到很多的數據行業(yè)的同仁,在微博或者寫(xiě)文章說(shuō),數據分析思想、行業(yè)知識、業(yè)務(wù)知識很重要。我非常同意。
因為作為數據分析師,在發(fā)表任何觀(guān)點(diǎn)的時(shí)候,都不要忘記你居于的背景是什么?但大家一定不要忘記了一些基本的技術(shù),不要把基礎去忘記了,如果一名數據分析師不會(huì )寫(xiě)SQL,那麻煩就大了。哈哈。
你只有把數據先取對了,才能正確的分析,否則一切都是錯誤了,甚至會(huì )導致致命的結論。
新同學(xué),還是好好花時(shí)間把基礎技能學(xué)好。因為基礎技能你可以在短期內快速提高,但是在行業(yè)、業(yè)務(wù)知識的是一點(diǎn)一滴的積累起來(lái)的,有時(shí)候是急不來(lái)的,這更需要花時(shí)間慢慢去沉淀下來(lái)。
不要過(guò)于追求很高級、高深的統計方法,我提倡有空還是要多去學(xué)習基本的統計學(xué)知識,從而提高工作效率,達到事半功倍。以我經(jīng)驗來(lái)說(shuō),我負責任告訴新進(jìn)的同學(xué),永遠不要忘記基本知識、基本技能的學(xué)習。
二、要有三心。1、細心。
2、耐心。3、靜心。
數據分析師其實(shí)是一個(gè)細活,特別是在前文提到的例子中的前面二點(diǎn)。而且在數據分析過(guò)程中,是一個(gè)不斷循環(huán)迭代的過(guò)程,所以一定在耐心,不怕麻煩,能靜下心來(lái)不斷去修改自己的分析思路。
三、形成自己結構化的思維。數據分析師一定要嚴謹。
而嚴謹一定要很強的結構化思維,如何提高結構化思維,也許只需要工作隊中不斷的實(shí)踐。但是我推薦你用mindmanagement,首先把你的整個(gè)思路整理出來(lái),然后根據分析不斷深入、得到的信息不斷增加的情況下去完善你的結構,慢慢你會(huì )形成一套自己的思想。
當然有空的時(shí)候去看看《麥肯錫思維》、結構化邏輯思維訓練的書(shū)也不錯。在我以為多看看你身邊更資深同事的報告,多問(wèn)問(wèn)他們是怎么去考慮這個(gè)問(wèn)題的,別人的思想是怎么樣的?他是怎么構建整個(gè)分析體系的。
四、業(yè)務(wù)、行業(yè)、商業(yè)知識。當你掌握好前面的基本知識和一些技巧性東西的時(shí)候,你應該在業(yè)務(wù)、行業(yè)、商業(yè)知識的學(xué)習與積累上了。
這個(gè)放在最后,不是不重要,而且非常重要,如果前面三點(diǎn)是決定你能否進(jìn)入這個(gè)行業(yè),那么這則是你進(jìn)入這個(gè)行業(yè)后,能否成功的最根本的因素。 數據與具體行業(yè)知識的關(guān)系,比作池塘中魚(yú)與水的關(guān)系一點(diǎn)都不過(guò)分,數據(魚(yú))離開(kāi)了行業(yè)、業(yè)務(wù)背景(水)是死的,是不可能是“活”。
而沒(méi)有“魚(yú)”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。如何提高業(yè)務(wù)知識,特別是沒(méi)有相關(guān)背景的同學(xué)。
很簡(jiǎn)單,我總結了幾點(diǎn):1、多向業(yè)務(wù)部門(mén)的同事請教,多溝通。多向他們請教,數據分析師與業(yè)務(wù)部門(mén)沒(méi)有利益沖突,而更向是共生體,所以如果你態(tài)度好,相信業(yè)務(wù)部門(mén)的同事也很愿意把他們知道的告訴你。
2、永遠不要忘記了google大神,定制一些行業(yè)的關(guān)鍵字,每天都先看看定制的郵件。3、每天有空去瀏。
Time Series Analysis Methods
Simple Moving Average Formula
Weighted Moving Average Formula
Exponential Smoothing Model
Logistic Regre等方法都可以解決。
根據你的實(shí)際,最簡(jiǎn)單的就是選前幾個(gè)月的銷(xiāo)售額進(jìn)行平均。
也可以將越靠近的月份銷(xiāo)售額給較大的權重,加權平均。
還可以將前面的數據進(jìn)行回歸分析,得出下個(gè)月的銷(xiāo)售額。
都是理論方法,可能會(huì )受到季節因素、環(huán)境因素、營(yíng)銷(xiāo)因素等的影響,還有待實(shí)際驗證。
總的分兩種:
1 列表法
將實(shí)驗數據按一定規律用列表方式表達出來(lái)是記錄和處理實(shí)驗數據最常用的方法。表格的設計要求對應關(guān)系清楚、簡(jiǎn)單明了、有利于發(fā)現相關(guān)量之間的物理關(guān)系;此外還要求在標題欄中注明物理量名稱(chēng)、符號、數量級和單位等;根據需要還可以列出除原始數據以外的計算欄目和統計欄目等。最后還要求寫(xiě)明表格名稱(chēng)、主要測量?jì)x器的型號、量程和準確度等級、有關(guān)環(huán)境條件參數如溫度、濕度等。
2 作圖法
作圖法可以最醒目地表達物理量間的變化關(guān)系。從圖線(xiàn)上還可以簡(jiǎn)便求出實(shí)驗需要的某些結果(如直線(xiàn)的斜率和截距值等),讀出沒(méi)有進(jìn)行觀(guān)測的對應點(diǎn)(內插法),或在一定條件下從圖線(xiàn)的延伸部分讀到測量范圍以外的對應點(diǎn)(外推法)。此外,還可以把某些復雜的函數關(guān)系,通過(guò)一定的變換用直線(xiàn)圖表示出來(lái)。例如半導體熱敏電阻的電阻與溫度關(guān)系為,取對數后得到,若用半對數坐標紙,以lgR為縱軸,以1/T為橫軸畫(huà)圖,則為一條直線(xiàn)。
定量預測方法有:
加權算術(shù)平均法
用各種權數算得的平均數稱(chēng)為加權算術(shù)平均數,它可以自然數作權數,也可以項目出現的次數作權數,所求平均數值即為測定值。
趨勢平均預測法
趨勢平均預測法是以過(guò)去發(fā)生的實(shí)際數為依據,在算術(shù)平均數的基礎上,假定未來(lái)時(shí)期的數值是它近期數值直接繼續,而同較遠時(shí)期的數值關(guān)系較小的一種預測方法。
指數平滑法
指數平滑法是以一個(gè)指標本身過(guò)去變化的趨勢作為預測未來(lái)的依據的一種方法。對未來(lái)預測時(shí),考慮則近期資料的影響應比遠期為大,因而對不同時(shí)期的資料不同的權數,越是近期資料權數越大,反之權數越小。
(4)平均發(fā)展速度法
(5)一元線(xiàn)性回歸預測法
根據x、y現有數據,尋求合理的a、b回歸系數,得出一條變動(dòng)直線(xiàn),并使線(xiàn)上各點(diǎn)至實(shí)際資料上的對應點(diǎn)之間的距離最小。
設變動(dòng)直線(xiàn)方程為:y=a+bx
(6)高低點(diǎn)法
高低點(diǎn)法是利用代數式y=a+bx,選用一定歷史資料中的最高業(yè)務(wù)量與最低業(yè)務(wù)量的總成本(或總費用)之差△y,與兩者業(yè)務(wù)量之差△x進(jìn)行對比,求出b,然后再求出a的方法。
數據分析的三個(gè)常用方法:
1. 數據趨勢分析
趨勢分析一般而言,適用于產(chǎn)品核心指標的長(cháng)期跟蹤,比如,點(diǎn)擊率,GMV,活躍用戶(hù)數等。做出簡(jiǎn)單的數據趨勢圖,并不算是趨勢分析,趨勢分析更多的是需要明確數據的變化,以及對變化原因進(jìn)行分析。
趨勢分析,最好的產(chǎn)出是比值。在趨勢分析的時(shí)候需要明確幾個(gè)概念:環(huán)比,同比,定基比。環(huán)比是指,是本期統計數據與上期比較,例如2019年2月份與2019年1月份相比較,環(huán)比可以知道最近的變化趨勢,但是會(huì )有些季節性差異。為了消除季節差異,于是有了同比的概念,例如2019年2月份和2018年2月份進(jìn)行比較。定基比更好理解,就是和某個(gè)基點(diǎn)進(jìn)行比較,比如2018年1月作為基點(diǎn),定基比則為2019年2月和2018年1月進(jìn)行比較。
比如:2019年2月份某APP月活躍用戶(hù)數我2000萬(wàn),相比1月份,環(huán)比增加2%,相比去年2月份,同比增長(cháng)20%。趨勢分析另一個(gè)核心目的則是對趨勢做出解釋?zhuān)瑢τ谮厔菥€(xiàn)中明顯的拐點(diǎn),發(fā)生了什么事情要給出合理的解釋?zhuān)瑹o(wú)論是外部原因還是內部原因。
2. 數據對比分析
數據的趨勢變化獨立的看,其實(shí)很多情況下并不能說(shuō)明問(wèn)題,比如如果一個(gè)企業(yè)盈利增長(cháng)10%,我們并無(wú)法判斷這個(gè)企業(yè)的好壞,如果這個(gè)企業(yè)所處行業(yè)的其他企業(yè)普遍為負增長(cháng),則5%很多,如果行業(yè)其他企業(yè)增長(cháng)平均為50%,則這是一個(gè)很差的數據。
對比分析,就是給孤立的數據一個(gè)合理的參考系,否則孤立的數據毫無(wú)意義。在此我向大家推薦一個(gè)大數據技術(shù)交流圈: 658558542 突破技術(shù)瓶頸,提升思維能力 。
一般而言,對比的數據是數據的基本面,比如行業(yè)的情況,全站的情況等。有的時(shí)候,在產(chǎn)品迭代測試的時(shí)候,為了增加說(shuō)服力,會(huì )人為的設置對比的基準。也就是A/B test。
比較試驗最關(guān)鍵的是A/B兩組只保持單一變量,其他條件保持一致。比如測試首頁(yè)改版的效果,就需要保持A/B兩組用戶(hù)質(zhì)量保持相同,上線(xiàn)時(shí)間保持相同,來(lái)源渠道相同等。只有這樣才能得到比較有說(shuō)服力的數據。
3. 數據細分分析
在得到一些初步結論的時(shí)候,需要進(jìn)一步地細拆,因為在一些綜合指標的使用過(guò)程中,會(huì )抹殺一些關(guān)鍵的數據細節,而指標本身的變化,也需要分析變化產(chǎn)生的原因。這里的細分一定要進(jìn)行多維度的細拆。常見(jiàn)的拆分方法包括:
分時(shí) :不同時(shí)間短數據是否有變化。
分渠道 :不同來(lái)源的流量或者產(chǎn)品是否有變化。
分用戶(hù) :新注冊用戶(hù)和老用戶(hù)相比是否有差異,高等級用戶(hù)和低等級用戶(hù)相比是否有差異。
分地區 :不同地區的數據是否有變化。
組成拆分 :比如搜索由搜索詞組成,可以拆分不同搜索詞;店鋪流量由不用店鋪產(chǎn)生,可以分拆不同的店鋪。
細分分析是一個(gè)非常重要的手段,多問(wèn)一些為什么,才是得到結論的關(guān)鍵,而一步一步拆分,就是在不斷問(wèn)為什么的過(guò)程。
借助工具,未至科技魔方是一款大數據模型平臺,是一款基于服務(wù)總線(xiàn)與分布式云計算兩大技術(shù)架構的一款數據分析、挖掘的工具平臺,其采用分布式文件系統對數據進(jìn)行存儲,支持海量數據的處理。
采用多種的數據采集技術(shù),支持結構化數據及非結構化數據的采集。通過(guò)圖形化的模型搭建工具,支持流程化的模型配置。
通過(guò)第三方插件技術(shù),很容易將其他工具及服務(wù)集成到平臺中去。數據分析研判平臺就是海量信息的采集,數據模型的搭建,數據的挖掘、分析最后形成知識服務(wù)于實(shí)戰、服務(wù)于決策的過(guò)程,平臺主要包括數據采集部分,模型配置部分,模型執行部分及成果展示部分等。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.925秒