學(xué)習要根據自身情況來(lái)定,如果你是零基礎,那就必須先從基礎Java開(kāi)始學(xué)起(大數據支持很多開(kāi)發(fā)語(yǔ)言,但企業(yè)用的最多的還是JAVA),接下來(lái)學(xué)習數據結構、Linux系統操作、關(guān)系型數據庫,夯實(shí)基礎之后,再進(jìn)入大數據的學(xué)習,具體可以按照如下體系:第一階段CORE JAVA (加**的需重點(diǎn)熟練掌握,其他掌握)Java基礎**數據類(lèi)型,運算符、循環(huán),算法,順序結構程序設計,程序結構,數組及多維數組面向對象**構造方法、控制符、封裝繼承**多態(tài)**抽象類(lèi)、接口**常用類(lèi)集合Collection、list**HashSet、TreeSet、Collection集合類(lèi)Map**異常,File文件/流**數據流和對象流**線(xiàn)程(理解即可)網(wǎng)絡(luò )通信(理解即可)第二階段數據結構關(guān)系型數據庫Linux系統操作Linux操作系統概述,安裝Linux操作系統,圖形界面操作基礎,Linux字符界面基礎,字符界面操作進(jìn)階,用戶(hù)、組群和權限管理,文件系統管理,軟件包管理與系統備份,Linux網(wǎng)絡(luò )配置 (主要掌握Linux操作系統的理論基礎和服務(wù)器配置實(shí)踐知識,同時(shí)通過(guò)大量實(shí)驗,著(zhù)重培養動(dòng)手能力。
了解Linux操作系統在行業(yè)中的重要地位和廣泛的使用范圍。在學(xué)習Linux的基礎上,加深對服務(wù)器操作系統的認識和實(shí)踐配置能力。
加深對計算機網(wǎng)絡(luò )基礎知識的理解,并在實(shí)踐中加以應用。掌握Linux操作系統的安裝、命令行操作、用戶(hù)管理、磁盤(pán)管理、文件系統管理、軟件包管理、進(jìn)程管理、系統監測和系統故障排除。
掌握Linux操作系統的網(wǎng)絡(luò )配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服務(wù)的配置與管理。為更深一步學(xué)習其它網(wǎng)絡(luò )操作系統和軟件系統開(kāi)發(fā)奠定堅實(shí)的基礎。
與此同時(shí),如果大家有時(shí)間把javaweb及框架學(xué)習一番,會(huì )讓你的大數據學(xué)習更自由一些)重點(diǎn)掌握:常見(jiàn)算法數據庫表設計,SQL語(yǔ)句,Linux常見(jiàn)命令第三階段Hadoop階段離線(xiàn)分析階段實(shí)時(shí)計算階段重點(diǎn)掌握:Hadoop基礎,HDFS,MapReduce,分布式集群,Hive,Hbase,Sqoop,Pig,Storm實(shí)時(shí)數據處理平臺,Spark平臺。
學(xué)科知識:從數據分析涉及到的專(zhuān)業(yè)知識點(diǎn)上看,主要是這些:
(1)統計學(xué):參數檢驗、非參檢驗、回歸分析等
(2)數學(xué):線(xiàn)性代數、微積分等
(3)社會(huì )學(xué):主要是一些社會(huì )學(xué)量化統計的知識,如問(wèn)卷調查與統計分析;還有就是一些社會(huì )學(xué)的知識,這些對于從事?tīng)I銷(xiāo)類(lèi)的數據分析人員比較有幫助
(4)經(jīng)濟金融:如果是從事這個(gè)行業(yè)的數據分析人員,經(jīng)濟金融知識是必須的,這里就不多說(shuō)了
(5)計算機:從事數據分析工作的人必須了解你使用的數據是怎么處理出來(lái)的,要了解數據庫的結構和基本原理,同時(shí)如果條件充足的話(huà),你還能有足夠的能力從數據庫里提取你需要的數據,這種提取數據分析原材料的能力是每個(gè)數據從業(yè)者必備的。
說(shuō)到大數據,肯定少不了分析軟件,這應該是大數據工作的根基,但市面上很多各種分析軟件,如果不是過(guò)來(lái)人,真的很難找到適合自己或符合企業(yè)要求的。
小編通過(guò)各大企業(yè)對大數據相關(guān)行業(yè)的崗位要求,總結了以下幾點(diǎn):(1)SQL數據庫的基本操作,會(huì )基本的數據管理(2)會(huì )用Excel/SQL做基本的數據分析和展示(3)會(huì )用腳本語(yǔ)言進(jìn)行數據分析,Python or R(4)有獲取外部數據的能力,如爬蟲(chóng)(5)會(huì )基本的數據可視化技能,能撰寫(xiě)數據報告(6)熟悉常用的數據挖掘算法:回歸分析、決策樹(shù)、隨機森林、支持向量機等對于學(xué)習大數據,總體來(lái)說(shuō),先學(xué)基礎,再學(xué)理論,最后是工具。基本上,每一門(mén)語(yǔ)言的學(xué)習都是要按照這個(gè)順序來(lái)的。
1、學(xué)習數據分析基礎知識,包括概率論、數理統計。基礎這種東西還是要掌握好的啊,基礎都還沒(méi)扎實(shí),知識大廈是很容易倒的哈。
2、你的目標行業(yè)的相關(guān)理論知識。比如金融類(lèi)的,要學(xué)習證券、銀行、財務(wù)等各種知識,不然到了公司就一臉懵逼啦。
3、學(xué)習數據分析工具,軟件結合案列的實(shí)際應用,關(guān)于數據分析主流軟件有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。4、學(xué)會(huì )怎樣操作這些軟件,然后是利用軟件從數據的清洗開(kāi)始一步步進(jìn)行處理,分析,最后輸出結果,檢驗及解讀數據。
當然,學(xué)習數學(xué)與應用數學(xué)、統計學(xué)、計算機科學(xué)與技術(shù)等理工科專(zhuān)業(yè)的人確實(shí)比文科生有著(zhù)客觀(guān)的優(yōu)勢,但能力大于專(zhuān)業(yè),興趣才會(huì )決定你走得有多遠。畢竟數據分析不像編程那樣,需要你天天敲代碼,要學(xué)習好多的編程語(yǔ)言,數據分析更注重的是你的實(shí)操和業(yè)務(wù)能力。
如今的軟件學(xué)習都是非常簡(jiǎn)單便捷的,我們真正需要提升的是自己的邏輯思維能力,以及敏銳的洞察能力,還得有良好的溝通表述能力。這些都是和自身的努力有關(guān),而不是單純憑借理工科背景就可以啃得下來(lái)的。
相反這些能力更加傾向于文科生,畢竟好奇心、創(chuàng )造力也是一個(gè)人不可或缺的。
學(xué)習大數據要有一定的編程基礎,這是大數據大部分崗位都需要的。
目前從事大數據方向的程序員比較普遍使用的語(yǔ)言有四種,分別是Python、Java、Scala和R,這四種語(yǔ)言都有一定的應用場(chǎng)景,不同崗位的程序員使用的語(yǔ)言也稍有不同。Python目前主要是應用在數據分析、數據挖掘和算法實(shí)現上,可以說(shuō)大數據領(lǐng)域Python的應用是比較普遍的。
Java目前在大數據領(lǐng)域的應用還是跟平臺有直接關(guān)系,通常在需要高性能的數據處理部分采用Java開(kāi)發(fā)。Scala和R主要是基于場(chǎng)景的應用多一些,Scala構建在Java基礎之上,代碼結構要比Java簡(jiǎn)潔一些,同時(shí)Scala是Spark的實(shí)現語(yǔ)言,在與Spark相關(guān)的開(kāi)發(fā)中使用Scala是比較方面的選擇。
R語(yǔ)言本身的特點(diǎn)就是統計分析,語(yǔ)法簡(jiǎn)單且功能強大,是做大數據統計分析的一把利器。
學(xué)科知識:從數據分析涉及到的專(zhuān)業(yè)知識點(diǎn)上看,主要是這些:(1)統計學(xué):參數檢驗、非參檢驗、回歸分析等(2)數學(xué):線(xiàn)性代數、微積分等(3)社會(huì )學(xué):主要是一些社會(huì )學(xué)量化統計的知識,如問(wèn)卷調查與統計分析;還有就是一些社會(huì )學(xué)的知識,這些對于從事?tīng)I銷(xiāo)類(lèi)的數據分析人員比較有幫助(4)經(jīng)濟金融:如果是從事這個(gè)行業(yè)的數據分析人員,經(jīng)濟金融知識是必須的,這里就不多說(shuō)了(5)計算機:從事數據分析工作的人必須了解你使用的數據是怎么處理出來(lái)的,要了解數據庫的結構和基本原理,同時(shí)如果條件充足的話(huà),你還能有足夠的能力從數據庫里提取你需要的數據,這種提取數據分析原材料的能力是每個(gè)數據從業(yè)者必備的。
看你做哪個(gè)方面的大數據工作,如果是統籌方面(比如數據建模(分析)之類(lèi))的,那么數學(xué)的功底是一定要有的,不然怎么做建模和分析。
如果是數據篩選一類(lèi)的,那么邏輯學(xué)和社會(huì )學(xué)是一定要有所基礎的,不一定要很精通,但是基礎一定要有。大數據的數據本身是無(wú)意義的,能從大數據中提取出想要的數據,就是數據篩選要做的,那么如果邏輯學(xué)和社會(huì )學(xué)不過(guò)關(guān)或者不扎實(shí),那么可能這部分數據與需要的數據有關(guān),但是察覺(jué)不到,可能這部分數據和需要的數據無(wú)關(guān),但是又被放在了里面(等于增加了無(wú)用功),這都不是好現象。而這部分就需要邏輯學(xué)和社會(huì )學(xué)。
如果是具體的操作,比如數據可視化,那就沒(méi)什么說(shuō)的了,編程能力,理解能力,這些是大頭。
還有數據治理等等(這個(gè)是數據倉庫的概念,放到大數據中也可以),這里需要數據的敏感度,其實(shí)還是和數學(xué)有關(guān),邏輯學(xué)社會(huì )學(xué)等其實(shí)也和數據有關(guān),編程等等也和數學(xué)有關(guān),所以我覺(jué)得大數據需要的基礎是數學(xué),當然職位(或者說(shuō)崗位不同)需要的基礎也不同,僅僅操作的話(huà),就簡(jiǎn)單一些,項往上走的話(huà),數學(xué)的功底就要更扎實(shí)一些。不過(guò)都是需要的。
大數據技術(shù)專(zhuān)業(yè)屬于交叉學(xué)科:以統計學(xué)、數學(xué)、計算機為三大支撐性學(xué)科;生物、醫學(xué)、環(huán)境科學(xué)、經(jīng)濟學(xué)、社會(huì )學(xué)、管理學(xué)為應用拓展性學(xué)科。
此外還需學(xué)習數據采集、分析、處理軟件,學(xué)習數學(xué)建模軟件及計算機編程語(yǔ)言等,知識結構是二專(zhuān)多能復合的跨界人才(有專(zhuān)業(yè)知識、有數據思維)。
以中國人民大學(xué)為例:
基礎課程:數學(xué)分析、高等代數、普通物理數學(xué)與信息科學(xué)概論、數據結構、數據科學(xué)導論、程序設計導論、程序設計實(shí)踐。
必修課:離散數學(xué)、概率與統計、算法分析與設計、數據計算智能、數據庫系統概論、計算機系統基礎、并行體系結構與編程、非結構化大數據分析。
選修課:數據科學(xué)算法導論、數據科學(xué)專(zhuān)題、數據科學(xué)實(shí)踐、互聯(lián)網(wǎng)實(shí)用開(kāi)發(fā)技術(shù)、抽樣技術(shù)、統計學(xué)習、回歸分析、隨機過(guò)程。
擴展資料:
大數據崗位:
1、大數據系統架構師
大數據平臺搭建、系統設計、基礎設施。
技能:計算機體系結構、網(wǎng)絡(luò )架構、編程范式、文件系統、分布并行處理等。
2、大數據系統分析師
面向實(shí)際行業(yè)領(lǐng)域,利用大數據技術(shù)進(jìn)行數據安全生命周期管理、分析和應用。
技能:人工智能、機器學(xué)習、數理統計、矩陣計算、優(yōu)化方法。
3、hadoop開(kāi)發(fā)工程師。
解決大數據存儲問(wèn)題。
4、數據分析師
不同行業(yè)中,專(zhuān)門(mén)從事行業(yè)數據搜集、整理、分析,并依據數據做出行業(yè)研究、評估和預測的專(zhuān)業(yè)人員。在工作中通過(guò)運用工具,提取、分析、呈現數據,實(shí)現數據的商業(yè)意義。
5、數據挖掘工程師
做數據挖掘要從海量數據中發(fā)現規律,這就需要一定的數學(xué)知識,最基本的比如線(xiàn)性代數、高等代數、凸優(yōu)化、概率論等。經(jīng)常會(huì )用到的語(yǔ)言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時(shí)用MapReduce寫(xiě)程序,再用Hadoop或者Hyp來(lái)處理數據,如果用Python的話(huà)會(huì )和Spark相結合。
參考資料來(lái)源:中國人民大學(xué)信息學(xué)院-數據科學(xué)與大數據技術(shù)
參考資料來(lái)源:百度百科-大數據采集與管理專(zhuān)業(yè)
大數據學(xué)習入門(mén)都需要學(xué)習和具備的基礎知識:
1. 數學(xué)知識:數學(xué)知識是數據分析師的基礎知識。
①對于初級數據分析師,了解一些描述統計相關(guān)的基礎內容,有一定的公式計算能力即可,了解常用統計模型算法則是加分。
②對于高級數據分析師,統計模型相關(guān)知識是必備能力,線(xiàn)性代數(主要是矩陣計算相關(guān)知識)最好也有一定的了解。
③而對于數據挖掘工程師,除了統計學(xué)以外,各類(lèi)算法也需要熟練使用,對數學(xué)的要求是最高的。
2. 分析工具
①對于初級數據分析師,玩轉Excel是必須的,數據透視表和公式使用必須熟練,VBA是加分。另外,還要學(xué)會(huì )一個(gè)統計分析工具,SPSS作為入門(mén)是比較好的。
②對于高級數據分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。
③對于數據挖掘工程師……嗯,會(huì )用用Excel就行了,主要工作要靠寫(xiě)代碼來(lái)解決呢。
3. 編程語(yǔ)言
①對于初級數據分析師,會(huì )寫(xiě)SQL查詢(xún),有需要的話(huà)寫(xiě)寫(xiě)Hadoop和Hive查詢(xún),基本就OK了。
②對于高級數據分析師,除了SQL以外,學(xué)習Python是很有必要的,用來(lái)獲取和處理數據都是事半功倍。當然其他編程語(yǔ)言也是可以的。
③對于數據挖掘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門(mén),Shell得會(huì )用……總之編程語(yǔ)言絕對是數據挖掘工程師的最核心能力了。
4. 業(yè)務(wù)理解
業(yè)務(wù)理解說(shuō)是數據分析師所有工作的基礎也不為過(guò),數據的獲取方案、指標的選取、乃至最終結論的洞察,都依賴(lài)于數據分析師對業(yè)務(wù)本身的理解。
①對于初級數據分析師,主要工作是提取數據和做一些簡(jiǎn)單圖表,以及少量的洞察結論,擁有對業(yè)務(wù)的基本了解就可以。
②對于高級數據分析師,需要對業(yè)務(wù)有較為深入的了解,能夠基于數據,提煉出有效觀(guān)點(diǎn),對實(shí)際業(yè)務(wù)能有所幫助。
③對于數據挖掘工程師,對業(yè)務(wù)有基本了解就可以,重點(diǎn)還是需要放在發(fā)揮自己的技術(shù)能力上。
5. 邏輯思維
①對于初級數據分析師,邏輯思維主要體現在數據分析過(guò)程中每一步都有目的性,知道自己需要用什么樣的手段,達到什么樣的目標。
②對于高級數據分析師,邏輯思維主要體現在搭建完整有效的分析框架,了解分析對象之間的關(guān)聯(lián)關(guān)系,清楚每一個(gè)指標變化的前因后果,會(huì )給業(yè)務(wù)帶來(lái)的影響。
③對于數據挖掘工程師,邏輯思維除了體現在和業(yè)務(wù)相關(guān)的分析工作上,還包括算法邏輯,程序邏輯等,所以對邏輯思維的要求也是最高的。
6. 數據可視化
數據可視化說(shuō)起來(lái)很高大上,其實(shí)包括的范圍很廣,做個(gè)PPT里邊放上數據圖表也可以算是數據可視化,所以我認為這是一項普遍需要的能力。
①對于初級數據分析師,能用Excel和PPT做出基本的圖表和報告,能清楚的展示數據,就達到目標了。
②對于高級數據分析師,需要探尋更好的數據可視化方法,使用更有效的數據可視化工具,根據實(shí)際需求做出或簡(jiǎn)單或復雜,但適合受眾觀(guān)看的數據可視化內容。
③對于數據挖掘工程師,了解一些數據可視化工具是有必要的,也要根據需求做一些復雜的可視化圖表,但通常不需要考慮太多美化的問(wèn)題。
7. 協(xié)調溝通
①對于初級數據分析師,了解業(yè)務(wù)、尋找數據、講解報告,都需要和不同部門(mén)的人打交道,因此溝通能力很重要。
②對于高級數據分析師,需要開(kāi)始獨立帶項目,或者和產(chǎn)品做一些合作,因此除了溝通能力以外,還需要一些項目協(xié)調能力。
③對于數據挖掘工程師,和人溝通技術(shù)方面內容偏多,業(yè)務(wù)方面相對少一些,對溝通協(xié)調的要求也相對低一些。
8. 快速學(xué)習
無(wú)論做數據分析的哪個(gè)方向,初級還是高級,都需要有快速學(xué)習的能力,學(xué)業(yè)務(wù)邏輯、學(xué)行業(yè)知識、學(xué)技術(shù)工具、學(xué)分析框架……數據分析領(lǐng)域中有學(xué)不完的內容,需要大家有一顆時(shí)刻不忘學(xué)習的心。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.525秒