推薦你看知乎的一篇文章網(wǎng)頁鏈接寫的非常全面,里面包含了學(xué)習(xí)的步驟,需要看的書籍,以及一些知識(shí)的擴(kuò)展,我現(xiàn)在正走到了第三部,數(shù)據(jù)分析思維的鍛煉,同時(shí)也在看一些相關(guān)的書籍,推薦《增長黑客》,是一本不錯(cuò)的數(shù)
如何成為一個(gè)數(shù)據(jù)分析師求高手給解答
推薦你看知乎的一篇文章網(wǎng)頁鏈接寫的非常全面,里面包含了學(xué)習(xí)的步驟,需要看的書籍,以及一些知識(shí)的擴(kuò)展,我現(xiàn)在正走到了第三部,數(shù)據(jù)分析思維的鍛煉,同時(shí)也在看一些相關(guān)的書籍,推薦《增長黑客》,是一本不錯(cuò)的數(shù)
目前很多想從事數(shù)據(jù)分析的,可能只會(huì)Excel,會(huì)做透視表,會(huì)VBA;進(jìn)階一點(diǎn)會(huì)寫SQL,還懂點(diǎn)業(yè)務(wù);再專業(yè)一些,有統(tǒng)計(jì)學(xué)基礎(chǔ),懂回歸、時(shí)間序列、假設(shè)檢驗(yàn)等等。這些對(duì)于專業(yè)的數(shù)據(jù)分析師,還都差了點(diǎn)火候。如果你有心想發(fā)展成為一個(gè)數(shù)據(jù)分析師,或者說某業(yè)務(wù)的資深數(shù)據(jù)分析專家,從技術(shù)層面來講,你需要了解成為一個(gè)數(shù)據(jù)分析師的路徑,6個(gè)步驟:第一步:統(tǒng)計(jì)、數(shù)據(jù)、機(jī)器學(xué)習(xí)關(guān)于數(shù)學(xué)知識(shí),大學(xué)課堂會(huì)學(xué)過一部分,如果是數(shù)學(xué)科學(xué)類的專業(yè)會(huì)學(xué)得更精深。關(guān)于統(tǒng)計(jì)學(xué)知識(shí),還是需要一定思維的鍛煉的。機(jī)器學(xué)習(xí),可以看下西線學(xué)院的課程,有公開課。第二步:編代碼如果希望擁有專業(yè)水準(zhǔn)的話,從編程基礎(chǔ)到端到端的開發(fā),一些技術(shù)的語言,比如R、Python、和一些商業(yè)軟件的SAS、SPSS等,以及深入的交互式學(xué)習(xí),這些你至少精通幾門,其他懂一些最好。第三步:懂?dāng)?shù)據(jù)庫數(shù)據(jù)分析大多應(yīng)用實(shí)際。企業(yè)數(shù)據(jù)常常被保存在MySQL、Oracle、Postgres、MonogoDB、Cassandra等數(shù)據(jù)庫中,所以這些數(shù)據(jù)庫你要了解甚至懂。第四步:數(shù)據(jù)管理、數(shù)據(jù)可視化、數(shù)據(jù)報(bào)告數(shù)據(jù)管理包括數(shù)據(jù)的清洗格加工ETL,目的是讓分析前的數(shù)據(jù)更加準(zhǔn)確和清晰,比如DataWrangler數(shù)據(jù)可視化數(shù)據(jù)數(shù)據(jù)分析的前端展示,目的是讓數(shù)據(jù)呈現(xiàn)更清楚明了,更形象,比如tableau,spotfire數(shù)據(jù)報(bào)告是通過不同工具將數(shù)據(jù)展示出來,可以和數(shù)據(jù)可視化歸類一起,但實(shí)際應(yīng)用中大多數(shù)都是通過PPT的承載方式來呈現(xiàn)。目前市面上很多公司都使用商業(yè)智能的工具,比如FineBI。BI工具是數(shù)據(jù)連接,數(shù)據(jù)處理和可視化為一體的工具,比起上方的純工具,能更好的適應(yīng)業(yè)務(wù)。第五步:大數(shù)據(jù)大數(shù)據(jù)是未來的必然趨勢,而大數(shù)據(jù)技術(shù)的類型也是多種多樣,hadoop,mapreduce,spark等等,多學(xué)會(huì)一種,層次也就不一樣。第六步:積攢經(jīng)驗(yàn),學(xué)習(xí)同行以上都是理論和工具,但是實(shí)踐才是出真知,不管是剛接觸數(shù)據(jù)分析的職場人,還是專業(yè)學(xué)習(xí)數(shù)據(jù)挖掘分析的你,都希望在學(xué)習(xí)以上內(nèi)容的同時(shí),多參加一些比賽,學(xué)習(xí)同領(lǐng)域的專業(yè)大神,訓(xùn)練自己在這方面的感覺。當(dāng)然,在實(shí)際應(yīng)用過程中,大多數(shù)人不一數(shù)據(jù)分析為主業(yè),數(shù)據(jù)分析只是分析業(yè)務(wù)的一個(gè)工具,那第四步的內(nèi)容已經(jīng)能夠滿足日常對(duì)業(yè)務(wù)的分析了,當(dāng)然Excel和PPT的熟練掌握也是必須的。
數(shù)據(jù)分析師技能:
1、統(tǒng)計(jì)分析
大樹定律、抽樣推測規(guī)律、秩和檢驗(yàn)、回歸分析、方差分析等
2、可視化輔助工具
Excel、PPT、Xmind、Viso
3、大數(shù)據(jù)處理框架
Hadoop、Kafka、Storm、ELK、Spark等
4、數(shù)據(jù)庫
SQLite、MySQL、MongoDB、Redis、Cassandra、Hbase
5、數(shù)據(jù)倉庫/商業(yè)智能
SSIS數(shù)據(jù)倉庫、SSAS MDX多維數(shù)據(jù)集、SSRS、DW2.0
6、數(shù)據(jù)挖掘工具
Matlab、SAS、SPSS、R、Python
7、人工智能
機(jī)器學(xué)習(xí)、深度學(xué)習(xí)
8、挖掘算法
數(shù)據(jù)結(jié)構(gòu)、一致性、常用算法
9、編程語言
Python、R、Java等
數(shù)據(jù)分析師的職位要求 :
1、計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等相關(guān)專業(yè)本科及以上學(xué)歷;
2、具有深厚的統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘知識(shí),熟悉數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的相關(guān)技術(shù),能夠熟練地使用SQL;
3、三年以上具有海量數(shù)據(jù)挖掘、分析相關(guān)項(xiàng)目實(shí)施的工作經(jīng)驗(yàn),參與過較完整的數(shù)據(jù)采集、整理、分析和建模工作;
4、對(duì)商業(yè)和業(yè)務(wù)邏輯敏感,熟悉傳統(tǒng)行業(yè)數(shù)據(jù)挖掘背景、了解市場特點(diǎn)及用戶需求,有互聯(lián)網(wǎng)相關(guān)行業(yè)背景,有網(wǎng)站用戶行為研究和文本挖掘經(jīng)驗(yàn)尤佳;
5、具備良好的邏輯分析能力、組織溝通能力和團(tuán)隊(duì)精神;
6、富有創(chuàng)新精神,充滿激情,樂于接受挑戰(zhàn)。
1、態(tài)度嚴(yán)謹(jǐn)負(fù)責(zé)嚴(yán)謹(jǐn)負(fù)責(zé)是數(shù)據(jù)分析師的必備素質(zhì)之一,只有本著嚴(yán)謹(jǐn)負(fù)責(zé)的態(tài)度,才能保證數(shù)據(jù)的客觀、準(zhǔn)確。在企業(yè)里,數(shù)據(jù)分析師可以說是企業(yè)的醫(yī)生,他們通過對(duì)企業(yè)運(yùn)營數(shù)據(jù)的分析,為企業(yè)尋找癥結(jié)及問題。一名合格的數(shù)據(jù)分析師,應(yīng)具有嚴(yán)謹(jǐn)、負(fù)責(zé)的態(tài)度,保持中立立場,客觀評(píng)價(jià)企業(yè)發(fā)展過程中存在的問題,為決策層提供有效的參考依據(jù);不應(yīng)受其他因素影響而更改數(shù)據(jù),隱瞞企業(yè)存在的問題,這樣做對(duì)企業(yè)發(fā)展是非常不利的,甚至?xí)斐蓢?yán)重的后果。而且,對(duì)數(shù)據(jù)分析師自身來說,也是前途盡毀,從此以后所做的數(shù)據(jù)分析結(jié)果都將受到質(zhì)疑,因?yàn)槟阋呀?jīng)不再是可信賴的人,在同事、領(lǐng)導(dǎo)、客戶面前已經(jīng)失去了信任。所以,作為一名數(shù)據(jù)分析師就必須持有嚴(yán)謹(jǐn)負(fù)責(zé)的態(tài)度,這也是最基本的職業(yè)道德。
2、好奇心強(qiáng)烈好奇心人皆有之,但是作為數(shù)據(jù)分析師,這份好奇心就應(yīng)該更強(qiáng)烈,要積極主動(dòng)地發(fā)現(xiàn)和挖掘隱藏在數(shù)據(jù)內(nèi)部的真相。在數(shù)據(jù)分析師的腦子里,應(yīng)該充滿著無數(shù)個(gè)“為什么”,為什么是這樣的結(jié)果,為什么不是那樣的結(jié)果,導(dǎo)致這個(gè)結(jié)果的原因是什么,為什么結(jié)果不是預(yù)期的那樣等等。這一系列問題都要在進(jìn)行數(shù)據(jù)分析時(shí)提出來,并且通過數(shù)據(jù)分析,給自己一個(gè)滿意的答案。越是優(yōu)秀的數(shù)據(jù)分析師,好奇心也越不容易滿足,回答了一個(gè)問題,又會(huì)拋出一個(gè)新的問題,繼續(xù)研究下去。只有擁有了這樣一種刨根問底的精神,才會(huì)對(duì)數(shù)據(jù)和結(jié)論保持敏感,繼而順藤摸瓜,找出數(shù)據(jù)背后的真相。
3、邏輯思維清晰除了一顆探索真相的好奇心,數(shù)據(jù)分析師還需要具備縝密的思維和清晰的邏輯推理能力。我記得有位大師說過:結(jié)構(gòu)為王。何謂結(jié)構(gòu),結(jié)構(gòu)就是我們常說的邏輯,不論說話還是寫文章,都要有條理,有目的,不可眉毛胡子一把抓,不分主次。通常從事數(shù)據(jù)分析時(shí)所面對(duì)的商業(yè)問題都是較為復(fù)雜的,我們要考慮錯(cuò)綜復(fù)雜的成因,分析所面對(duì)的各種復(fù)雜的環(huán)境因素,并在若干發(fā)展可能性中選擇一個(gè)最優(yōu)的方向。這就需要我們對(duì)事實(shí)有足夠的了解,同時(shí)也需要我們能真正理清問題的整體以及局部的結(jié)構(gòu),在深度思考后,理清結(jié)構(gòu)中相互的邏輯關(guān)系,只有這樣才能真正客觀地、科學(xué)地找到商業(yè)問題的答案。
4、擅長模仿在做數(shù)據(jù)分析時(shí),有自己的想法固然重要,但是“前車之鑒”也是非常有必要學(xué)習(xí)的,它能幫助數(shù)據(jù)分析師迅速地成長,因此,模仿是快速提高學(xué)習(xí)成果的有效方法。這里說的模仿主要是參考他人優(yōu)秀的分析思路和方法,而并不是說直接“照搬”。成功的模仿需要領(lǐng)會(huì)他人方法精髓,理解其分析原理,透過表面達(dá)到實(shí)質(zhì)。萬變不離其宗,要善于將這些精華轉(zhuǎn)化為自己的知識(shí),否則,只能是“一直在模仿,從未超越過”。
5、勇于創(chuàng)新通過模仿可以借鑒他人的成功經(jīng)驗(yàn),但模仿的時(shí)間不宜太長,并且建議每次模仿后都要進(jìn)行總結(jié),提出可以改進(jìn)的地方,甚至要有所創(chuàng)新。創(chuàng)新是一個(gè)優(yōu)秀數(shù)據(jù)分析師應(yīng)具備的精神,只有不斷的創(chuàng)新,才能提高自己的分析水平,使自己站在更高的角度來分析問題,為整個(gè)研究領(lǐng)域乃至社會(huì)帶來更多的價(jià)值?,F(xiàn)在的分析方法和研究課題千變?nèi)f化,墨守成規(guī)是無法很好地解決所面臨的新問題的。技能要求:
1、懂業(yè)務(wù)。從事數(shù)據(jù)分析工作的前提就會(huì)需要懂業(yè)務(wù),即熟悉行業(yè)知識(shí)、公司業(yè)務(wù)及流程,最好有自己獨(dú)到的見解,若脫離行業(yè)認(rèn)知和公司業(yè)務(wù)背景,分析的結(jié)果只會(huì)是脫了線的風(fēng)箏,沒有太大的使用價(jià)值。
2、懂管理。一方面是搭建數(shù)據(jù)分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識(shí)來指導(dǎo),如果不熟悉管理理論,就很難搭建數(shù)據(jù)分析的框架,后續(xù)的數(shù)據(jù)分析也很難進(jìn)行。另一方面的作用是針對(duì)數(shù)據(jù)分析結(jié)論提出有指導(dǎo)意義的分析建議。
3、懂分析。指掌握數(shù)據(jù)分析基本原理與一些有效的數(shù)據(jù)分析方法,并能靈活運(yùn)用到實(shí)踐工作中,以便有效的開展數(shù)據(jù)分析?;镜姆治龇椒ㄓ校簩?duì)比分析法、分組分析法、交叉分析法、結(jié)構(gòu)分析法、漏斗圖分析法、綜合評(píng)價(jià)分析法、因素分析法、矩陣關(guān)聯(lián)分析法等。高級(jí)的分析方法有:相關(guān)分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對(duì)應(yīng)分析法、時(shí)間序列等。
4、懂工具。指掌握數(shù)據(jù)分析相關(guān)的常用工具。數(shù)據(jù)分析方法是理論,而數(shù)據(jù)分析工具就是實(shí)現(xiàn)數(shù)據(jù)分析方法理論的工具,面對(duì)越來越龐大的數(shù)據(jù),我們不能依靠計(jì)算器進(jìn)行分析,必須依靠強(qiáng)大的數(shù)據(jù)分析工具幫我們完成數(shù)據(jù)分析工作。
5、懂設(shè)計(jì)。懂設(shè)計(jì)是指運(yùn)用圖表有效表達(dá)數(shù)據(jù)分析師的分析觀點(diǎn),使分析結(jié)果一目了然。圖表的設(shè)計(jì)是門大學(xué)問,如圖形的選擇、版式的設(shè)計(jì)、顏色的搭配等等,都需要掌握一定的設(shè)計(jì)原則。
學(xué)習(xí)數(shù)據(jù)分析師之前,你必須清楚自己想要達(dá)成什么目標(biāo)。也就是說,你想通過這門技術(shù)來解決哪些問題或?qū)崿F(xiàn)什么計(jì)劃。有了這個(gè)目標(biāo),你才能清晰地開展自己的學(xué)習(xí)規(guī)劃,并且明確它的知識(shí)體系。只有明確的目標(biāo)導(dǎo)向,學(xué)習(xí)必備也是最有用的那部分,才能避免無效信息降低學(xué)習(xí)效率。
1、明確知識(shí)框架和學(xué)習(xí)路徑
數(shù)據(jù)分析這件事,如果你要成為數(shù)據(jù)分析師,那么你可以去招聘網(wǎng)站看看,對(duì)應(yīng)的職位的需求是什么,一般來說你就會(huì)對(duì)應(yīng)該掌握的知識(shí)架構(gòu)有初步的了解。你可以去看看數(shù)據(jù)分析師職位,企業(yè)對(duì)技能需求可總結(jié)如下:
SQL數(shù)據(jù)庫的基本操作,會(huì)基本的數(shù)據(jù)管理;
會(huì)用Excel/SQL做基本的數(shù)據(jù)提取、分析和展示;
會(huì)用腳本語言進(jìn)行數(shù)據(jù)分析,Python or R;
有獲取外部數(shù)據(jù)的能力加分,如爬蟲或熟悉公開數(shù)據(jù)集;
會(huì)基本的數(shù)據(jù)可視化技能,能撰寫數(shù)據(jù)報(bào)告;
熟悉常用的數(shù)據(jù)挖掘算法:回歸分析、決策樹、分類、聚類方法;
高效的學(xué)習(xí)路徑是什么?就是數(shù)據(jù)分析的流程。一般大致可以按“數(shù)據(jù)獲取-數(shù)據(jù)存儲(chǔ)與提取-數(shù)據(jù)預(yù)處理-數(shù)據(jù)建模與分析-數(shù)據(jù)可視化”這樣的步驟來實(shí)現(xiàn)一個(gè)數(shù)據(jù)分析師的學(xué)成之旅。按這樣的順序循序漸進(jìn),你會(huì)知道每個(gè)部分需要完成的目標(biāo)是什么,需要學(xué)習(xí)哪些知識(shí)點(diǎn),哪些知識(shí)是暫時(shí)不必要的。然后每學(xué)習(xí)一個(gè)部分,你就能夠有一些實(shí)際的成果輸出,有正向的反饋和成就感,你才會(huì)愿意花更多的時(shí)間投入進(jìn)去。以解決問題為目標(biāo),效率自然不會(huì)低。
按照上面的流程,我們分需要獲取外部數(shù)據(jù)和不需要獲取外部數(shù)據(jù)兩類分析師,總結(jié)學(xué)習(xí)路徑如下:
1.需要獲取外部數(shù)據(jù)分析師:
python基礎(chǔ)知識(shí)
python爬蟲
SQL語言
python科學(xué)計(jì)算包:pandas、numpy、scipy、scikit-learn
統(tǒng)計(jì)學(xué)基礎(chǔ)
回歸分析方法
數(shù)據(jù)挖掘基本算法:分類、聚類
模型優(yōu)化:特征提取
數(shù)據(jù)可視化:seaborn、matplotlib
2.不需要獲取外部數(shù)據(jù)分析師:
SQL語言
python基礎(chǔ)知識(shí)
python科學(xué)計(jì)算包:pandas、numpy、scipy、scikit-learn
統(tǒng)計(jì)學(xué)基礎(chǔ)
回歸分析方法
數(shù)據(jù)挖掘基本算法:分類、聚類
模型優(yōu)化:特征提取
數(shù)據(jù)可視化:seaborn、matplotlib
接下來我們分別從每一個(gè)部分講講具體應(yīng)該學(xué)什么、怎么學(xué)。
數(shù)據(jù)獲?。汗_數(shù)據(jù)、Python爬蟲
如果接觸的只是企業(yè)數(shù)據(jù)庫里的數(shù)據(jù),不需要要獲取外部數(shù)據(jù)的,這個(gè)部分可以忽略。
外部數(shù)據(jù)的獲取方式主要有以下兩種。
第一種是獲取外部的公開數(shù)據(jù)集,一些科研機(jī)構(gòu)、企業(yè)、政府會(huì)開放一些數(shù)據(jù),你需要到特定的網(wǎng)站去下載這些數(shù)據(jù)。這些數(shù)據(jù)集通常比較完善、質(zhì)量相對(duì)較高。
另一種獲取外部數(shù)據(jù)費(fèi)的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網(wǎng)站某一職位的招聘信息,爬取租房網(wǎng)站上某城市的租房信息,爬取豆瓣評(píng)分評(píng)分最高的電影列表,獲取知乎點(diǎn)贊排行、網(wǎng)易云音樂評(píng)論排行列表。基于互聯(lián)網(wǎng)爬取的數(shù)據(jù),你可以對(duì)某個(gè)行業(yè)、某種人群進(jìn)行分析。
在爬蟲之前你需要先了解一些 Python 的基礎(chǔ)知識(shí):元素(列表、字典、元組等)、變量、循環(huán)、函數(shù)(鏈接的菜鳥教程非常好)……以及如何用成熟的 Python 庫(urllib、BeautifulSoup、requests、scrapy)實(shí)現(xiàn)網(wǎng)頁爬蟲。如果是初學(xué),建議從 urllib 和 BeautifulSoup 開始。(PS:后續(xù)的數(shù)據(jù)分析也需要 Python 的知識(shí),以后遇到的問題也可以在這個(gè)教程查看)
網(wǎng)上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網(wǎng)頁爬取,一方面是網(wǎng)頁結(jié)構(gòu)比較簡單,二是豆瓣對(duì)爬蟲相對(duì)比較友好。
掌握基礎(chǔ)的爬蟲之后,你還需要一些高級(jí)技巧,比如正則表達(dá)式、模擬用戶登錄、使用代理、設(shè)置爬取頻率、使用cookie信息等等,來應(yīng)對(duì)不同網(wǎng)站的反爬蟲限制。
除此之外,常用的的電商網(wǎng)站、問答網(wǎng)站、點(diǎn)評(píng)網(wǎng)站、二手交易網(wǎng)站、婚戀網(wǎng)站、招聘網(wǎng)站的數(shù)據(jù),都是很好的練手方式。這些網(wǎng)站可以獲得很有分析意義的數(shù)據(jù),最關(guān)鍵的是,有很多成熟的代碼,可以參考。
數(shù)據(jù)存?。篠QL語言
你可能有一個(gè)疑惑,為什么沒有講到Excel。在應(yīng)對(duì)萬以內(nèi)的數(shù)據(jù)的時(shí)候,Excel對(duì)于一般的分析沒有問題,一旦數(shù)據(jù)量大,就會(huì)力不從心,數(shù)據(jù)庫就能夠很好地解決這個(gè)問題。而且大多數(shù)的企業(yè),都會(huì)以SQL的形式來存儲(chǔ)數(shù)據(jù),如果你是一個(gè)分析師,也需要懂得SQL的操作,能夠查詢、提取數(shù)據(jù)。
SQL作為最經(jīng)典的數(shù)據(jù)庫工具,為海量數(shù)據(jù)的存儲(chǔ)與管理提供可能,并且使數(shù)據(jù)的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的數(shù)據(jù):企業(yè)數(shù)據(jù)庫里的數(shù)據(jù)一定是大而繁復(fù)的,你需要提取你需要的那一部分。比如你可以根據(jù)你的需要提取2018年所有的銷售數(shù)據(jù)、提取今年銷量最大的50件商品的數(shù)據(jù)、提取上海、廣東地區(qū)用戶的消費(fèi)數(shù)據(jù)……,SQL可以通過簡單的命令幫你完成這些工作。
數(shù)據(jù)庫的增、刪、查、改:這些是數(shù)據(jù)庫最基本的操作,但只要用簡單的命令就能夠?qū)崿F(xiàn),所以你只需要記住命令就好。
數(shù)據(jù)的分組聚合、如何建立多個(gè)表之間的聯(lián)系:這個(gè)部分是SQL的進(jìn)階操作,多個(gè)表之間的關(guān)聯(lián),在你處理多維度、多個(gè)數(shù)據(jù)集的時(shí)候非常有用,這也讓你可以去處理更復(fù)雜的數(shù)據(jù)。
數(shù)據(jù)預(yù)處理:Python(pandas)
很多時(shí)候我們拿到的數(shù)據(jù)是不干凈的,數(shù)據(jù)的重復(fù)、缺失、異常值等等,這時(shí)候就需要進(jìn)行數(shù)據(jù)的清洗,把這些影響分析的數(shù)據(jù)處理好,才能獲得更加精確地分析結(jié)果。
比如空氣質(zhì)量的數(shù)據(jù),其中有很多天的數(shù)據(jù)由于設(shè)備的原因是沒有監(jiān)測到的,有一些數(shù)據(jù)是記錄重復(fù)的,還有一些數(shù)據(jù)是設(shè)備故障時(shí)監(jiān)測無效的。比如用戶行為數(shù)據(jù),有很多無效的操作對(duì)分析沒有意義,就需要進(jìn)行刪除。
那么我們需要用相應(yīng)的方法去處理,比如殘缺數(shù)據(jù),我們是直接去掉這條數(shù)據(jù),還是用臨近的值去補(bǔ)全,這些都是需要考慮的問題。
對(duì)于數(shù)據(jù)預(yù)處理,學(xué)會(huì) pandas 的用法,應(yīng)對(duì)一般的數(shù)據(jù)清洗就完全沒問題了。需要掌握的知識(shí)點(diǎn)如下:
選擇:數(shù)據(jù)訪問(標(biāo)簽、特定值、布爾索引等)
缺失值處理:對(duì)缺失數(shù)據(jù)行進(jìn)行刪除或填充
重復(fù)值處理:重復(fù)值的判斷與刪除
空格和異常值處理:清楚不必要的空格和極端、異常數(shù)據(jù)
相關(guān)操作:描述性統(tǒng)計(jì)、Apply、直方圖等
合并:符合各種邏輯關(guān)系的合并操作
分組:數(shù)據(jù)劃分、分別執(zhí)行函數(shù)、數(shù)據(jù)重組
Reshaping:快速生成數(shù)據(jù)透視表
概率論及統(tǒng)計(jì)學(xué)知識(shí)
數(shù)據(jù)整體分布是怎樣的?什么是總體和樣本?中位數(shù)、眾數(shù)、均值、方差等基本的統(tǒng)計(jì)量如何應(yīng)用?如果有時(shí)間維度的話隨著時(shí)間的變化是怎樣的?如何在不同的場景中做假設(shè)檢驗(yàn)?數(shù)據(jù)分析方法大多源于統(tǒng)計(jì)學(xué)的概念,所以統(tǒng)計(jì)學(xué)的知識(shí)也是必不可少的。需要掌握的知識(shí)點(diǎn)如下:
基本統(tǒng)計(jì)量:均值、中位數(shù)、眾數(shù)、百分位數(shù)、極值等
其他描述性統(tǒng)計(jì)量:偏度、方差、標(biāo)準(zhǔn)差、顯著性等
其他統(tǒng)計(jì)知識(shí):總體和樣本、參數(shù)和統(tǒng)計(jì)量、ErrorBar
概率分布與假設(shè)檢驗(yàn):各種分布、假設(shè)檢驗(yàn)流程
其他概率論知識(shí):條件概率、貝葉斯等
有了統(tǒng)計(jì)學(xué)的基本知識(shí),你就可以用這些統(tǒng)計(jì)量做基本的分析了。通過可視化的方式來描述數(shù)據(jù)的指標(biāo),其實(shí)可以得出很多結(jié)論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 Seaborn(python包)在做這些可視化的分析,你會(huì)輕松地畫出各種可視化圖形,并得出具有指導(dǎo)意義的結(jié)果。了解假設(shè)檢驗(yàn)之后,可以對(duì)樣本指標(biāo)與假設(shè)的總體指標(biāo)之間是否存在差別作出判斷,已驗(yàn)證結(jié)果是否在可接受的范圍。
python數(shù)據(jù)分析
如果你有一些了解的話,就知道目前市面上其實(shí)有很多 Python 數(shù)據(jù)分析的書籍,但每一本都很厚,學(xué)習(xí)阻力非常大。但其實(shí)真正最有用的那部分信息,只是這些書里很少的一部分。比如用 Python 實(shí)現(xiàn)不同案例的假設(shè)檢驗(yàn),其實(shí)你就可以對(duì)數(shù)據(jù)進(jìn)行很好的驗(yàn)證。
比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實(shí)你就可以對(duì)大多數(shù)的數(shù)據(jù)進(jìn)行回歸分析,并得出相對(duì)精確地結(jié)論。比如DataCastle的訓(xùn)練競賽“房價(jià)預(yù)測”和“職位預(yù)測”,都可以通過回歸分析實(shí)現(xiàn)。這部分需要掌握的知識(shí)點(diǎn)如下:
回歸分析:線性回歸、邏輯回歸
基本的分類算法:決策樹、隨機(jī)森林……
基本的聚類算法:k-means……
特征工程基礎(chǔ):如何用特征選擇優(yōu)化模型
調(diào)參方法:如何調(diào)節(jié)參數(shù)優(yōu)化模型
Python 數(shù)據(jù)分析包:scipy、numpy、scikit-learn等
在數(shù)據(jù)分析的這個(gè)階段,重點(diǎn)了解回歸分析的方法,大多數(shù)的問題可以得以解決,利用描述性的統(tǒng)計(jì)分析和回歸分析,你完全可以得到一個(gè)不錯(cuò)的分析結(jié)論。
當(dāng)然,隨著你實(shí)踐量的增多,可能會(huì)遇到一些復(fù)雜的問題,你就可能需要去了解一些更高級(jí)的算法:分類、聚類,然后你會(huì)知道面對(duì)不同類型的問題的時(shí)候更適合用哪種算法模型,對(duì)于模型的優(yōu)化,你需要去學(xué)習(xí)如何通過特征提取、參數(shù)調(diào)節(jié)來提升預(yù)測的精度。這就有點(diǎn)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的味道了,其實(shí)一個(gè)好的數(shù)據(jù)分析師,應(yīng)該算是一個(gè)初級(jí)的數(shù)據(jù)挖掘工程師了。
系統(tǒng)實(shí)戰(zhàn)
這個(gè)時(shí)候,你就已經(jīng)具備了數(shù)據(jù)分析的基本能力了。但是還要根據(jù)不同的案例、不同的業(yè)務(wù)場景進(jìn)行實(shí)戰(zhàn)。能夠獨(dú)立完成分析任務(wù),那么你就已經(jīng)打敗市面上大部分的數(shù)據(jù)分析師了。
如何進(jìn)行實(shí)戰(zhàn)呢?
上面提到的公開數(shù)據(jù)集,可以找一些自己感興趣的方向的數(shù)據(jù),嘗試從不同的角度來分析,看看能夠得到哪些有價(jià)值的結(jié)論。
另一個(gè)角度是,你可以從生活、工作中去發(fā)現(xiàn)一些可用于分析的問題,比如上面說到的電商、招聘、社交等平臺(tái)等方向都有著很多可以挖掘的問題。
開始的時(shí)候,你可能考慮的問題不是很周全,但隨著你經(jīng)驗(yàn)的積累,慢慢就會(huì)找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區(qū)域分布、年齡分布、相關(guān)性分析、未來趨勢預(yù)測等等。隨著經(jīng)驗(yàn)的增加,你會(huì)有一些自己對(duì)于數(shù)據(jù)的感覺,這就是我們通常說的數(shù)據(jù)思維了。
你也可以看看行業(yè)的分析報(bào)告,看看優(yōu)秀的分析師看待問題的角度和分析問題的維度,其實(shí)這并不是一件困難的事情。
在掌握了初級(jí)的分析方法之后,也可以嘗試做一些數(shù)據(jù)分析的競賽,比如 DataCastle 為數(shù)據(jù)分析師專門定制的三個(gè)競賽,提交答案即可獲取評(píng)分和排名:
員工離職預(yù)測訓(xùn)練賽
美國King County房價(jià)預(yù)測訓(xùn)練賽
北京PM2.5濃度分析訓(xùn)練賽
種一棵樹最好的時(shí)間是十年前,其次是現(xiàn)在。現(xiàn)在就去,找一個(gè)數(shù)據(jù)集開始吧??!