數(shù)據(jù)科學(xué)專業(yè) 主要以統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)可視化以及(某一)領(lǐng)域知識為理論基礎(chǔ),其主要研究內(nèi)容包括數(shù)據(jù)科學(xué)基礎(chǔ)理論、數(shù)據(jù)預(yù)處理、數(shù)據(jù)計算和數(shù)據(jù)管理,數(shù)據(jù)科學(xué)的知識體系.

基礎(chǔ)理論:數(shù)據(jù)科學(xué)中的新理念、理論、方法、技術(shù)及工具以及數(shù)據(jù)科學(xué)的研究目的、理論基礎(chǔ)、研究內(nèi)容、基本流程、主要原則、典型應(yīng)用、人才培養(yǎng)、項目管理等。在此需要特別提醒的是 ——“基礎(chǔ)理論”與“理論基礎(chǔ)”是兩個不同的概念。數(shù)據(jù)科學(xué)的“基礎(chǔ)理論”在數(shù)據(jù)科學(xué)的研究邊界之內(nèi),而其“理論基礎(chǔ)”在數(shù)據(jù)科學(xué)的研究邊界之外,是數(shù)據(jù)科學(xué)的理論依據(jù)和來源。
數(shù)據(jù)預(yù)處理:為了提升數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)計算的復(fù)雜度、減少數(shù)據(jù)計算量以及提升數(shù)據(jù)處理的準(zhǔn)確性,數(shù)據(jù)科學(xué)中需要對原始數(shù)據(jù)進行預(yù)處理 ——進行數(shù)據(jù)審計、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)脫敏、數(shù)據(jù)規(guī)約和數(shù)據(jù)標(biāo)注等。
數(shù)據(jù)計算:在數(shù)據(jù)科學(xué)中,計算模式發(fā)生了根本性的變化 ——從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算。有一定的代表性的是google云計算3大技術(shù)、haoop mapreuce和yarn技術(shù)的出現(xiàn)。數(shù)據(jù)計算模式的變化意味著數(shù)據(jù)科學(xué)中所關(guān)注的數(shù)據(jù)計算的主要目標(biāo)、瓶頸和矛盾發(fā)生了根本性變化。
數(shù)據(jù)管理:在完成 “數(shù)據(jù)預(yù)處理”(或“數(shù)據(jù)計算”)之后,我們需要對數(shù)據(jù)進行管理,以便進行(再次進行)“數(shù)據(jù)處理”以及數(shù)據(jù)的再利用和長久保管。在數(shù)據(jù)科學(xué)中,數(shù)據(jù)管理方法與技術(shù)發(fā)生了根本性的改變——不僅包括傳統(tǒng)關(guān)系型數(shù)據(jù)庫,而且還出現(xiàn)了一些新興數(shù)據(jù)管理技術(shù),例如nosql、newsql技術(shù)和關(guān)系云等。
技術(shù)與工具:數(shù)據(jù)科學(xué)中采用的技術(shù)與工具具有一定的專業(yè)性,r語言是數(shù)據(jù)科學(xué)家最為普遍應(yīng)用的工具之一。
數(shù)據(jù)科學(xué)就業(yè)方向
數(shù)據(jù)分析師側(cè)重于利用統(tǒng)計學(xué)、數(shù)學(xué)等知識進行數(shù)據(jù)挖掘,日常的主要工作內(nèi)容為收集數(shù)據(jù)、清洗數(shù)據(jù)、然后做一些分析或可視化處理,對編程語言有一定的要求,如 r,python,javascript,c/c++,sql等。初級的analyst的工作就是配合scientist和engineer,當(dāng)業(yè)務(wù)需求使用某些方法的時候,他們就是一線操作者,當(dāng)scientist要數(shù)據(jù),他們要收集清理數(shù)據(jù),當(dāng)客戶或者子公司要數(shù)據(jù),他們也要收集清理數(shù)據(jù)。得出最終的分析報告給產(chǎn)品組工程組或管理層。所以從這個角度講,analyst只是非常純粹的在和數(shù)據(jù)打交道罷了。
數(shù)據(jù)科學(xué)家是數(shù)據(jù)領(lǐng)域非常具有復(fù)合型的高級崗位,往往需要具備能夠獨立完成一整套數(shù)據(jù)分析過程的能力:從數(shù)據(jù)提取,整合、并進行分層,進行統(tǒng)計或其他復(fù)雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,開發(fā)具有更寬廣應(yīng)用前景的數(shù)據(jù)工具。實際工作中主要的精力大概在分布式算法的實現(xiàn)和優(yōu)化上,特別是后者,是極具挑戰(zhàn)性的,需要資深的數(shù)據(jù)科學(xué)家來完成,因此需要非常強大的數(shù)學(xué)、統(tǒng)計、計算機背景,在優(yōu)化問題上很有經(jīng)驗。
都說不想當(dāng)數(shù)據(jù)架構(gòu)師的程序猿不是一個好前端。因為一個優(yōu)秀的數(shù)據(jù)架構(gòu)師應(yīng)該對所在領(lǐng)域的主流技術(shù)體系有一個全面清晰的認識,對某一種技術(shù)的原理、運作機理有深入的理解,是該領(lǐng)域的專家,同時具有將客觀事物抽象出來的能力,關(guān)注當(dāng)前技術(shù)前沿和熱點,使用最高效的方式解決問題。他們的日常主要任務(wù)為創(chuàng)建數(shù)據(jù)管理系統(tǒng),對數(shù)據(jù)源進行整合、集中、和維護。具體來講,要求會 sql,xml,hive,pig,spark等,對數(shù)據(jù)庫體系結(jié)構(gòu)有深入了解,擅長數(shù)據(jù)倉庫解決方案等。
作為一個新興的職業(yè)類型,數(shù)據(jù)工程師更傾向于掌握“戰(zhàn)術(shù)層面” 的具體數(shù)據(jù)技能,專注于使數(shù)據(jù)可用并能夠在生產(chǎn)環(huán)境中對數(shù)據(jù)進行處理,如具體的編程語言、操作系統(tǒng)與數(shù)據(jù)庫等;而數(shù)據(jù)科學(xué)家更傾向于“戰(zhàn)略層面”的數(shù)據(jù)技能,如數(shù)據(jù)分析、數(shù)據(jù)挖掘、統(tǒng)計分析、機器學(xué)習(xí)等。他們的日常主要工作內(nèi)容是用sql來回答分析型問題,用腳本來做數(shù)據(jù)集成,清洗etl(提取-轉(zhuǎn)換-裝載)任務(wù)和使用haoop生態(tài)工具等,對編程語言要求較高,sql,hive,pig,r,matlab,sas,spss,python,java,ruby,c++,perl等等都要會。
數(shù)據(jù)庫管理員和數(shù)據(jù)分析的關(guān)聯(lián)不是很大,類似于一個 it職位,職責(zé)為管理數(shù)據(jù)以及支持數(shù)據(jù)管理的設(shè)施,確保數(shù)據(jù)庫是提供給所有相關(guān)用戶,正在正確、安全的執(zhí)行,因此可能會用到sql,haoop及相關(guān)查詢語言,如hive和pig。日常專注于優(yōu)化數(shù)據(jù)倉庫,負責(zé)數(shù)據(jù)的讀寫和管理。
商業(yè)分析師和純數(shù)據(jù)科學(xué)家都是使用數(shù)據(jù)的專家,但他們的工作內(nèi)容是有比較大差別的。通常,商業(yè)分析師要對某專業(yè)領(lǐng)域具有深入的了解和深刻的認識,商業(yè)敏感度高,擅長于從某一領(lǐng)域的數(shù)據(jù)中挖掘信息,以此評估過去、現(xiàn)在和未來可能的經(jīng)營業(yè)績。確定最有效的分析模型和途徑,為商業(yè)用戶提供和解釋解決方案。
更多問題歡迎咨詢
【微語】我們在家靜靜守候,期盼你學(xué)成歸來,那時的你將更加耀眼。