統計學(xué):《赤裸裸的統計學(xué)》、《深入淺出統計學(xué)》數學(xué):《高等數學(xué)》、《概率論及其應用》、《線(xiàn)性代數及其應用》等Linux操作系統:《Linux 新手終極指南》、《Linux 基礎》、《Linux 命令行》Java:《Effective Java》、《Java8實(shí)戰》、《Java高并發(fā)編程實(shí)戰》大數據Hadoop體系:《Big Data》、《Hadoop權威指南》、《Hive編程指南》Scala黃金語(yǔ)言和Spark:《Learning Spark》、《Spark機器學(xué)習:核心技術(shù)與實(shí)踐》。
1.《大數據分析:點(diǎn)“數”成金》
該書(shū)向讀者介紹怎樣將大數據分析應用于各行各業(yè)。在中,你將了解到如何對數據進(jìn)行挖掘,怎樣從數據中揭示趨勢并轉化為競爭策略及攫取價(jià)值的方法。這些更有意思也更有效的方法能夠提升企業(yè)的智能化水平,將有助于企業(yè)解決實(shí)際問(wèn)題,提升利潤空間,提高生產(chǎn)率并發(fā)現更多的商業(yè)機會(huì )。
2、《大數據時(shí)代 》
《大數據時(shí)代》是國外大數據系統研究的先河之作,本書(shū)中前瞻性地指出,大數據帶來(lái)的信息風(fēng)暴正在變革我們的生活、工作和思維,大數據開(kāi)啟了一次重大的時(shí)代轉型,并用三個(gè)部分講述了大數據時(shí)代的思維變革、商業(yè)變革和管理變革。《大數據時(shí)代》認為大數據的核心就是預測。大數據將為人類(lèi)的生活創(chuàng )造前所未有的可量化的維度。大數據已經(jīng)成為了新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)。書(shū)中展示了谷歌、微軟、IBM、蘋(píng)果、facebook、twitter、VISA等大數據先鋒們具價(jià)值的應用案例。
3、《云端時(shí)代殺手級應用:大數據分析》
《云端時(shí)代殺手級應用:大數據分析》分什么是大數據、大數據大商機、技術(shù)與前瞻3個(gè)部分。第一部分介紹大數據分析的概念,以及企業(yè)、政府部門(mén)可應用的范疇。什么是大數據分析?與個(gè)人與企業(yè)有什么關(guān)系?將對全球產(chǎn)業(yè)造成怎樣的沖擊?第二部分完整介紹大數據在各產(chǎn)業(yè)的應用實(shí)況,為企業(yè)及政府部門(mén)提供應用的方向。提供了全球各地的實(shí)際應用案例,涵蓋零售、金融、政府部門(mén)、能源、制造、娛樂(lè )、醫療、電信等各個(gè)行業(yè),充分展現大數據分析產(chǎn)生的效益。第三部分則簡(jiǎn)單介紹了大數據分析所需技術(shù)及未來(lái)發(fā)展趨勢,為讀者提供了應用與研究的方向。
4、《大數據互聯(lián)網(wǎng)大規模數據挖掘與分布式處理》
《大數據:互聯(lián)網(wǎng)大規模數據挖掘與分布式處理》源自作者在斯坦福大學(xué)教授多年的“Web挖掘”課程材料,主要關(guān)注大數據環(huán)境下數據挖掘的實(shí)際算法。書(shū)中分析了海量數據集數據挖掘常用的算法,介紹了目前Web應用的許多重要話(huà)題。主要內容包括:分布式文件系統以及Map-Reduce工具;相似性搜索;數據流處理以及針對易丟失數據等特殊情況的專(zhuān)用處理算法;搜索引擎技術(shù),如谷歌的PageRank;頻繁項集挖掘;大規模高維數據集的聚類(lèi)算法;Web應用中的關(guān)鍵問(wèn)題:廣告管理和推薦系統。
大數據技術(shù)學(xué)習前的準備知識
(1)英語(yǔ)基礎
對于大數據技術(shù)文章,比較先進(jìn)的是外文較多,必須要有一定的英語(yǔ)能力。
(2)統計學(xué)
主要是大數據分析、數據挖掘方向的工作需要。可以重點(diǎn)學(xué)習:
基本的統計量:均值、中位數、眾數、方差、標準差、百分位數等
概率分布:幾何分布、二項分布、泊松分布、正態(tài)分布等
總體和樣本:了解基本概念,抽樣的概念
置信區間與假設檢驗:如何進(jìn)行驗證分析
相關(guān)性與回歸分析:一般數據分析的基本模型等等。
推薦書(shū)籍:
《赤裸裸的統計學(xué)》、《深入淺出統計學(xué)》
(3)數學(xué)
和數據打交道,數學(xué)知識是有很大幫助的,尤其是數據分析這個(gè)方向。需要的數學(xué)知識如下:
概率論與數理統計
線(xiàn)性代數
優(yōu)化理論:線(xiàn)性?xún)?yōu)化、最優(yōu)化、凸優(yōu)化等
離散數學(xué)等
推薦學(xué)習資源:
《高等數學(xué)》、《概率論及其應用》、《線(xiàn)性代數及其應用》等
(4)計算機知識
網(wǎng)絡(luò )體系結構
網(wǎng)絡(luò )協(xié)議
數據傳輸過(guò)程
網(wǎng)絡(luò )安全
多媒體數據傳輸等
推薦書(shū)籍:
《計算機基礎知識入門(mén)》、《計算機組成原理》、《計算機系統》、《編譯原理》、《語(yǔ)言與計算機》
2、Linux操作系統
要了解操作系統體系結構、任務(wù)調度、內存管理、存儲管理、命令解釋、界面管理、文件管理等基本內容。
Linux基礎
Linux系統管理
基礎網(wǎng)絡(luò )服務(wù)
系統管理進(jìn)階及運維自動(dòng)化工具
推薦學(xué)習資源:
Linux 基金會(huì )關(guān)于 Linux 的介紹、《Linux 介紹》、《Linux 新手終極指南》、《Linux 基礎》、《Linux 命令行》
3、JavaSE
Java經(jīng)過(guò)二十多年的發(fā)展,目前應用十分廣泛,具有健全的生態(tài)體系,網(wǎng)絡(luò )上的學(xué)習資源很多,且相當一部分系統清楚。Java和大數據有直接的關(guān)系,學(xué)習大數據之前,需要先學(xué)習這門(mén)編程語(yǔ)言,尤其是大數據開(kāi)發(fā)方向。
變量、循環(huán)、if等等;面向對象;I/O輸入和輸出(HDFS會(huì )用到);反射、泛型,MR查詢(xún)等
JavaSE書(shū)籍推薦:
《Java編程思想》、《Java核心技術(shù)卷一》、《Effective Java》、《深入理解Java虛擬機》、《Java8實(shí)戰》、《Java高并發(fā)編程實(shí)戰》
近兩年,大數據火了,所以跟風(fēng)了解了一下
給你推薦《大數據時(shí)代——生活、工作與思維的大變革》,這一本算是大數據領(lǐng)域入門(mén)的不二選擇,從思維變革、商業(yè)變革、管理變革三個(gè)部分闡述大數據對生活、工作、思維的改變。
里面有很多案例,可讀性很強,重點(diǎn)是要了解大數據,需要先了解大數據思維,它是一種很顛覆的思維方式,這本書(shū)里面講得比較清晰。
值得一提的是譯者周濤,有“最年輕的教授”之稱(chēng),是我國年輕有為的大數據專(zhuān)家,電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任、教授、博士生導師。也是商業(yè)大數據服務(wù)公司數聯(lián)銘品的首席科學(xué)家。
兩本: 《大數據:正在到來(lái)的數據革命》 涂子沛 《大數據時(shí)代:生活、工作與思維的大變革》 維克托?邁爾-舍恩伯格 (Viktor Mayer-Sch?nberger) (作者),肯尼思?庫克耶 (Kenneth Cukier) (作者),盛楊燕 (譯者),周濤 (譯者) 嫌少再加兩本: 《刪除:大數據取舍之道》 維克托?邁爾-舍恩伯格 (Viktor Mayer-Sch?nberger) (作者),袁杰 (譯者) 《爆發(fā):大數據時(shí)代預見(jiàn)未來(lái)的新思維》 艾伯特?拉斯洛?巴拉巴西(Albert László Barabási) (作者),馬慧 (譯者)。
1、《Hadoop權威指南》
現在3.1版本剛剛發(fā)布,但官方并不推薦在生產(chǎn)環(huán)境使用。作為hadoop的入門(mén)書(shū)籍,從2.x版本開(kāi)始也不失為良策。
本書(shū)從Hadoop的緣起開(kāi)始,由淺入深,結合理論和實(shí)踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。剛剛更新的版本中,相比之前的版本增加了介紹YARN , Parquet , Flume, Crunch , Spark的章節,非常適合于Hadoop 初學(xué)者。
2、《Learning Spark》
《Spark 快速大數據分析》是一本為Spark 初學(xué)者準備的書(shū),它沒(méi)有過(guò)多深入實(shí)現細節,而是更多關(guān)注上層用戶(hù)的具體用法。不過(guò),本書(shū)絕不僅僅限于Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
3、《Spark機器學(xué)習:核心技術(shù)與實(shí)踐》
以實(shí)踐方式助你掌握Spark機器學(xué)習技術(shù)。本書(shū)采用理論與大量實(shí)例相結合的方式幫助開(kāi)發(fā)人員掌握使用Spark進(jìn)行分析和實(shí)現機器學(xué)習算法。通過(guò)這些示例和Spark在各種企業(yè)級系統中的應用,幫助讀者解鎖Spark機器學(xué)習算法的復雜性,通過(guò)數據分析產(chǎn)生有價(jià)值的數據洞察力。
初級階段:《大數據時(shí)代》
讀完這本書(shū),要求你形成大數據的概念,對大數據有個(gè)全面的認識和了解。
中級階段:《失控》
用統計的方法,而不是因果的方法,預測未來(lái),用統計的方法來(lái)對某些東西進(jìn)行預測.
高級階段:《復雜性》
指明了一個(gè)無(wú)窮疊代,即 “關(guān)系的關(guān)系的……關(guān)系”,而智能將在這里涌現,解決復雜性問(wèn)題預測的關(guān)鍵很可能就在這里,這句話(huà)打開(kāi)了一個(gè)非常廣闊的前景,將象宇宙一樣沒(méi)有窮盡。
高級階段(2):《量子物理史話(huà)》
停止爭論吧,上帝真的擲骰子!隨機性是世界的基石,當電子出現在這里時(shí),它是一個(gè)隨機的過(guò)程,并不需要有誰(shuí)給它加上難以忍受的條條框框。……而統計規律則把微觀(guān)上的無(wú)法無(wú)天抹平成為宏觀(guān)上的井井有條。——摘自《量子物理史話(huà)》
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.703秒