前言,學(xué)大數據要先換電腦:
保證電腦4核8G內存64位操作系統,盡量有ssd做系統盤(pán),否則卡到你喪失信心。硬盤(pán)越大越好。
1,語(yǔ)言要求
java剛入門(mén)的時(shí)候要求javase。
scala是學(xué)習spark要用的基本使用即可。
后期深入要求:
java NIO,netty,多線(xiàn)程,ClassLoader,jvm底層及調優(yōu)等,rpc。
2,操作系統要求
linux 基本的shell腳本的使用。
crontab的使用,最多。
cpu,內存,網(wǎng)絡(luò ),磁盤(pán)等瓶頸分析及狀態(tài)查看的工具。
scp,ssh,hosts的配置使用。
telnet,ping等網(wǎng)絡(luò )排查命令的使用
3,sql基本使用
sql是基礎,hive,sparksql等都需要用到,況且大部分企業(yè)也還是以數據倉庫為中心,少不了sql。
sql統計,排序,join,group等,然后就是sql語(yǔ)句調優(yōu),表設計等。
4,大數據基本了解
Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等這些框架的作用及基本環(huán)境的搭建,要熟練,要會(huì )運維,瓶頸分析。
5,mapreduce及相關(guān)框架hive,sqoop
深入了解mapreduce的核心思想。尤其是shuffle,join,文件輸入格式,map數目,reduce數目,調優(yōu)等。
6,hive和hbase等倉庫
hive和hbase基本是大數據倉庫的標配。要回用,懂調優(yōu),故障排查。
hbase看浪尖hbase系列文章。hive后期更新。
7,消息隊列的使用
kafka基本概念,使用,瓶頸分析。看浪尖kafka系列文章。
8,實(shí)時(shí)處理系統
storm和spark Streaming
9,spark core和sparksql
spark用于離線(xiàn)分析的兩個(gè)重要功能。
10,最終方向決策
a),運維。(精通整套系統及故障排查,會(huì )寫(xiě)運維腳本啥的。)
b),數據分析。(算法精通)
c),平臺開(kāi)發(fā)。(源碼精通)
自學(xué)還是培訓?
無(wú)基礎的同學(xué),培訓之前先搞到視頻通學(xué)一遍,防止盲目培訓跟不上講師節奏,浪費時(shí)間,精力,金錢(qián)。
有基礎的盡量搞點(diǎn)視頻學(xué)基礎,然后跟群里大牛交流,前提是人家愿意,
想辦法跟大牛做朋友才是王道。
學(xué)科知識:從數據分析涉及到的專(zhuān)業(yè)知識點(diǎn)上看,主要是這些:
(1)統計學(xué):參數檢驗、非參檢驗、回歸分析等
(2)數學(xué):線(xiàn)性代數、微積分等
(3)社會(huì )學(xué):主要是一些社會(huì )學(xué)量化統計的知識,如問(wèn)卷調查與統計分析;還有就是一些社會(huì )學(xué)的知識,這些對于從事?tīng)I銷(xiāo)類(lèi)的數據分析人員比較有幫助
(4)經(jīng)濟金融:如果是從事這個(gè)行業(yè)的數據分析人員,經(jīng)濟金融知識是必須的,這里就不多說(shuō)了
(5)計算機:從事數據分析工作的人必須了解你使用的數據是怎么處理出來(lái)的,要了解數據庫的結構和基本原理,同時(shí)如果條件充足的話(huà),你還能有足夠的能力從數據庫里提取你需要的數據,這種提取數據分析原材料的能力是每個(gè)數據從業(yè)者必備的。
說(shuō)到大數據,肯定少不了分析軟件,這應該是大數據工作的根基,但市面上很多各種分析軟件,如果不是過(guò)來(lái)人,真的很難找到適合自己或符合企業(yè)要求的。
小編通過(guò)各大企業(yè)對大數據相關(guān)行業(yè)的崗位要求,總結了以下幾點(diǎn):(1)SQL數據庫的基本操作,會(huì )基本的數據管理(2)會(huì )用Excel/SQL做基本的數據分析和展示(3)會(huì )用腳本語(yǔ)言進(jìn)行數據分析,Python or R(4)有獲取外部數據的能力,如爬蟲(chóng)(5)會(huì )基本的數據可視化技能,能撰寫(xiě)數據報告(6)熟悉常用的數據挖掘算法:回歸分析、決策樹(shù)、隨機森林、支持向量機等對于學(xué)習大數據,總體來(lái)說(shuō),先學(xué)基礎,再學(xué)理論,最后是工具。基本上,每一門(mén)語(yǔ)言的學(xué)習都是要按照這個(gè)順序來(lái)的。
1、學(xué)習數據分析基礎知識,包括概率論、數理統計。基礎這種東西還是要掌握好的啊,基礎都還沒(méi)扎實(shí),知識大廈是很容易倒的哈。
2、你的目標行業(yè)的相關(guān)理論知識。比如金融類(lèi)的,要學(xué)習證券、銀行、財務(wù)等各種知識,不然到了公司就一臉懵逼啦。
3、學(xué)習數據分析工具,軟件結合案列的實(shí)際應用,關(guān)于數據分析主流軟件有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。4、學(xué)會(huì )怎樣操作這些軟件,然后是利用軟件從數據的清洗開(kāi)始一步步進(jìn)行處理,分析,最后輸出結果,檢驗及解讀數據。
當然,學(xué)習數學(xué)與應用數學(xué)、統計學(xué)、計算機科學(xué)與技術(shù)等理工科專(zhuān)業(yè)的人確實(shí)比文科生有著(zhù)客觀(guān)的優(yōu)勢,但能力大于專(zhuān)業(yè),興趣才會(huì )決定你走得有多遠。畢竟數據分析不像編程那樣,需要你天天敲代碼,要學(xué)習好多的編程語(yǔ)言,數據分析更注重的是你的實(shí)操和業(yè)務(wù)能力。
如今的軟件學(xué)習都是非常簡(jiǎn)單便捷的,我們真正需要提升的是自己的邏輯思維能力,以及敏銳的洞察能力,還得有良好的溝通表述能力。這些都是和自身的努力有關(guān),而不是單純憑借理工科背景就可以啃得下來(lái)的。
相反這些能力更加傾向于文科生,畢竟好奇心、創(chuàng )造力也是一個(gè)人不可或缺的。
1、學(xué)習大數據首先要學(xué)習Java基礎
怎樣進(jìn)行大數據學(xué)習的快速入門(mén)?學(xué)大數據課程之前要先學(xué)習一種計算機編程語(yǔ)言。Java是大數據學(xué)習需要的編程語(yǔ)言基礎,因為大數據的開(kāi)發(fā)基于常用的高級語(yǔ)言。而且不論是學(xué)習hadoop,還是數據挖掘,都需要有編程語(yǔ)言作為基礎。因此,如果想學(xué)習大數據開(kāi)發(fā),掌握Java基礎是必不可少的。
2、學(xué)習大數據必須學(xué)習大數據核心知識
Hadoop生態(tài)系統;HDFS技術(shù);HBASE技術(shù);Sqoop使用流程;數據倉庫工具HIVE;大數據離線(xiàn)分析Spark、Python語(yǔ)言;數據實(shí)時(shí)分析Storm;消息訂閱分發(fā)系統Kafka等。
如果把大數據比作容器,那么這個(gè)容器的容量無(wú)限大,什么都能往里裝,大數據離不開(kāi)物聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng),大數據還和人工智能、云計算和機器學(xué)習有著(zhù)千絲萬(wàn)縷的關(guān)系,大數據海量數據存儲要高擴展就離不開(kāi)云計算,大數據計算分析采用傳統的機器學(xué)習、數據挖掘技術(shù)會(huì )比較慢,需要做并行計算和分布式計算擴展。
3 數學(xué)知識,數學(xué)知識是數據分析師的基礎知識。對于數據分析師,了解一些描述統計相關(guān)的內容,需要有一定公式計算能力,了解常用統計模型算法。而對于數據挖掘工程師來(lái)說(shuō),各類(lèi)算法也需要熟練使用,對數學(xué)的要求是最高的。
編程語(yǔ)言,對于想學(xué)大數據的同學(xué),至少需要具備一門(mén)編程語(yǔ)言,比如SQL、hadoop、hive查詢(xún)、Python等均可。
4、學(xué)習大數據可以應用的領(lǐng)域
大數據技術(shù)可以應用在各個(gè)領(lǐng)域,比如公安大數據、交通大數據、醫療大數據、就業(yè)大數據、環(huán)境大數據、圖像大數據、視頻大數據等等,應用范圍非常廣泛,大數據技術(shù)已經(jīng)像空氣一樣滲透在生活的方方面面。大數據技術(shù)的出現將社會(huì )帶入了一個(gè)高速發(fā)展的時(shí)代,這不僅是信息技術(shù)的終極目標,也是人類(lèi)社會(huì )發(fā)展管理智能化的核心技術(shù)驅動(dòng)力。
學(xué)習大數據要有一定的編程基礎,這是大數據大部分崗位都需要的。
目前從事大數據方向的程序員比較普遍使用的語(yǔ)言有四種,分別是Python、Java、Scala和R,這四種語(yǔ)言都有一定的應用場(chǎng)景,不同崗位的程序員使用的語(yǔ)言也稍有不同。Python目前主要是應用在數據分析、數據挖掘和算法實(shí)現上,可以說(shuō)大數據領(lǐng)域Python的應用是比較普遍的。
Java目前在大數據領(lǐng)域的應用還是跟平臺有直接關(guān)系,通常在需要高性能的數據處理部分采用Java開(kāi)發(fā)。Scala和R主要是基于場(chǎng)景的應用多一些,Scala構建在Java基礎之上,代碼結構要比Java簡(jiǎn)潔一些,同時(shí)Scala是Spark的實(shí)現語(yǔ)言,在與Spark相關(guān)的開(kāi)發(fā)中使用Scala是比較方面的選擇。
R語(yǔ)言本身的特點(diǎn)就是統計分析,語(yǔ)法簡(jiǎn)單且功能強大,是做大數據統計分析的一把利器。
看你做哪個(gè)方面的大數據工作,如果是統籌方面(比如數據建模(分析)之類(lèi))的,那么數學(xué)的功底是一定要有的,不然怎么做建模和分析。
如果是數據篩選一類(lèi)的,那么邏輯學(xué)和社會(huì )學(xué)是一定要有所基礎的,不一定要很精通,但是基礎一定要有。大數據的數據本身是無(wú)意義的,能從大數據中提取出想要的數據,就是數據篩選要做的,那么如果邏輯學(xué)和社會(huì )學(xué)不過(guò)關(guān)或者不扎實(shí),那么可能這部分數據與需要的數據有關(guān),但是察覺(jué)不到,可能這部分數據和需要的數據無(wú)關(guān),但是又被放在了里面(等于增加了無(wú)用功),這都不是好現象。而這部分就需要邏輯學(xué)和社會(huì )學(xué)。
如果是具體的操作,比如數據可視化,那就沒(méi)什么說(shuō)的了,編程能力,理解能力,這些是大頭。
還有數據治理等等(這個(gè)是數據倉庫的概念,放到大數據中也可以),這里需要數據的敏感度,其實(shí)還是和數學(xué)有關(guān),邏輯學(xué)社會(huì )學(xué)等其實(shí)也和數據有關(guān),編程等等也和數學(xué)有關(guān),所以我覺(jué)得大數據需要的基礎是數學(xué),當然職位(或者說(shuō)崗位不同)需要的基礎也不同,僅僅操作的話(huà),就簡(jiǎn)單一些,項往上走的話(huà),數學(xué)的功底就要更扎實(shí)一些。不過(guò)都是需要的。
大數據已經(jīng)成為時(shí)代發(fā)展的趨勢,很多人紛紛選擇學(xué)習大數據,想要進(jìn)入大數據行業(yè)。大數據技術(shù)體系龐大,包括的知識較多,系統的學(xué)習大數據可以讓你全面掌握大數據技能。學(xué)習大數據需要掌握哪些知識?
1、學(xué)習大數據首先要學(xué)習Java基礎
怎樣進(jìn)行大數據學(xué)習的快速入門(mén)?學(xué)大數據課程之前要先學(xué)習一種計算機編程語(yǔ)言。Java是大數據學(xué)習需要的編程語(yǔ)言基礎,因為大數據的開(kāi)發(fā)基于常用的高級語(yǔ)言。而且不論是學(xué)習hadoop,還是數據挖掘,都需要有編程語(yǔ)言作為基礎。因此,如果想學(xué)習大數據開(kāi)發(fā),掌握Java基礎是必不可少的。
2、學(xué)習大數據必須學(xué)習大數據核心知識
Hadoop生態(tài)系統;HDFS技術(shù);HBASE技術(shù);Sqoop使用流程;數據倉庫工具HIVE;大數據離線(xiàn)分析Spark、Python語(yǔ)言;數據實(shí)時(shí)分析Storm;消息訂閱分發(fā)系統Kafka等。
如果把大數據比作容器,那么這個(gè)容器的容量無(wú)限大,什么都能往里裝,大數據離不開(kāi)物聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng),大數據還和人工智能、云計算和機器學(xué)習有著(zhù)千絲萬(wàn)縷的關(guān)系,大數據海量數據存儲要高擴展就離不開(kāi)云計算,大數據計算分析采用傳統的機器學(xué)習、數據挖掘技術(shù)會(huì )比較慢,需要做并行計算和分布式計算擴展。
3、學(xué)習大數據需要具備的能力
數學(xué)知識,數學(xué)知識是數據分析師的基礎知識。對于數據分析師,了解一些描述統計相關(guān)的內容,需要有一定公式計算能力,了解常用統計模型算法。而對于數據挖掘工程師來(lái)說(shuō),各類(lèi)算法也需要熟練使用,對數學(xué)的要求是最高的。
編程語(yǔ)言,對于想學(xué)大數據的同學(xué),至少需要具備一門(mén)編程語(yǔ)言,比如SQL、hadoop、hive查詢(xún)、Python等均可。
4、學(xué)習大數據可以應用的領(lǐng)域
大數據技術(shù)可以應用在各個(gè)領(lǐng)域,比如公安大數據、交通大數據、醫療大數據、就業(yè)大數據、環(huán)境大數據、圖像大數據、視頻大數據等等,應用范圍非常廣泛,大數據技術(shù)已經(jīng)像空氣一樣滲透在生活的方方面面。大數據技術(shù)的出現將社會(huì )帶入了一個(gè)高速發(fā)展的時(shí)代,這不僅是信息技術(shù)的終極目標,也是人類(lèi)社會(huì )發(fā)展管理智能化的核心技術(shù)驅動(dòng)力。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.074秒