Hello~大家好,數(shù)據(jù)科學(xué)導(dǎo)論相關(guān)作業(yè)與課程有難點(diǎn)是很正常的現(xiàn)象,需要同學(xué)們用心去多做習(xí)題。今天學(xué)姐為同學(xué)們分享數(shù)據(jù)科學(xué)導(dǎo)論相關(guān)理論,希望可以幫助廣大留學(xué)生梳理思路,學(xué)姐整理了非常詳細(xì)的流程細(xì)節(jié)可以參考。

累積分布函數(shù)
不是絕對(duì)的數(shù)字?jǐn)?shù)據(jù)也有分布。一般來(lái)說(shuō),當(dāng)數(shù)據(jù)不明確時(shí),報(bào)告每個(gè)條目的頻率并不是一個(gè)有效的總結(jié),因?yàn)榇蠖鄶?shù)條目都是唯一的。在我們的案例研究中,雖然幾名學(xué)生報(bào)告的身高為68英寸,但只有一名學(xué)生報(bào)告的身高為68.503937007874只有一個(gè)學(xué)生報(bào)告了身高68.8976377952756英寸。我們假設(shè)它們分別從174和175厘米轉(zhuǎn)換而來(lái)。
統(tǒng)計(jì)學(xué)教科書(shū)告訴我們,定義數(shù)字?jǐn)?shù)據(jù)分布的一個(gè)更有用的方法是定義一個(gè)函數(shù)來(lái)報(bào)告下面數(shù)據(jù)的比例 a對(duì)于的所有可能值 a。這個(gè)函數(shù)叫做累積分布函數(shù)(CDF)。在統(tǒng)計(jì)學(xué)中,使用以下符號(hào):
F(a)=鐠(x≤a)
這里有一個(gè)情節(jié) F 對(duì)于男性身高數(shù)據(jù)
類(lèi)似于頻率表對(duì)分類(lèi)數(shù)據(jù)的作用,cdfd定義了數(shù)字?jǐn)?shù)據(jù)的分布。從圖中,我們可以看到16%的值低于65,因?yàn)?F(66)= 0.164,或者84%的值低于72,因?yàn)?F(72)= 0.841,以此類(lèi)推。事實(shí)上,我們可以報(bào)告任意兩個(gè)高度之間的值的比例,比如說(shuō) a 和 b,通過(guò)計(jì)算 F(b)?F(a)。這意味著,如果我們將上面的這個(gè)圖發(fā)送給ET,他將擁有重建整個(gè)列表所需的所有信息。轉(zhuǎn)述“一張圖片勝過(guò)千言萬(wàn)語(yǔ)”這句話,在這種情況下,一張圖片就像812個(gè)數(shù)字一樣信息豐富。
最后一點(diǎn):因?yàn)閭鶆?wù)抵押債券可以用數(shù)學(xué)方法定義經(jīng)驗(yàn)主義的添加是為了在使用數(shù)據(jù)時(shí)進(jìn)行區(qū)分。因此,我們使用術(shù)語(yǔ)經(jīng)驗(yàn)CDF (eCDF)。
正態(tài)分布
直方圖和密度圖為分布提供了極好的總結(jié)。但是我們能不能更進(jìn)一步總結(jié)呢?我們經(jīng)??吹狡骄岛蜆?biāo)準(zhǔn)差作為匯總統(tǒng)計(jì):兩個(gè)數(shù)匯總!要理解這些總結(jié)是什么,為什么被如此廣泛地使用,我們需要理解正態(tài)分布。
正態(tài)分布,也稱(chēng)為鐘形曲線和高斯分布,是歷史上最著名的數(shù)學(xué)概念之一。一個(gè)原因是,在許多情況下會(huì)出現(xiàn)近似正態(tài)分布,包括賭博贏款、身高、體重、血壓、標(biāo)準(zhǔn)化測(cè)試分?jǐn)?shù)和實(shí)驗(yàn)測(cè)量誤差。對(duì)此有解釋?zhuān)覀兩院髸?huì)描述這些。在這里,我們關(guān)注正態(tài)分布如何幫助我們總結(jié)數(shù)據(jù)。
正態(tài)分布不是用數(shù)據(jù),而是用數(shù)學(xué)公式定義的。對(duì)于任何間隔 (a,b),可以使用以下公式計(jì)算該區(qū)間中值的比例:
鐠(a%3Cx%3Cb)=∫ba一√2πse?一2(x?ms)2d
留求藝美國(guó)哥倫比亞大學(xué)課程的在線輔導(dǎo)可以添加留求藝?yán)蠋熚⑿胚M(jìn)行一對(duì)一咨詢(xún)。老師會(huì)根據(jù)同學(xué)實(shí)際情況制定專(zhuān)屬輔導(dǎo)計(jì)劃。留求藝專(zhuān)注輔導(dǎo)海外留學(xué)生在學(xué)習(xí)中遇到的各種困難。