比如这样的问题:
为什么高考状元,最后都很平庸?
为什么学区房那么值钱,但学历不值钱?
为什么一个清华毕业的,收入还干不过咪蒙?
当然,统计概率知识是推断统计学的基础,也是以后从事数据分析、机器学习、深度学习的基础知识。学会这些知识,可以为我们未来的选择多一个机会,希望大家在学校和工作中,好好学习统计学。
概率
当我们说,
“这个粒子衰变的概率是50%;”
“掷硬币正面朝上的概率是50%;”
“这个手术成功的概率是60%;”
“Trump被弹劾的概率是5%;”
都是什么意思?
这其实是一个非常深刻的哲学问题,一般被称作为"概率的解释"。概率论需要回答的第一个问题就是,什么是概率?
刚接触这门学科的同学可能觉得难以置信,这么一个简单的问题仍然存在着广泛的争论。
对于概率的定义有几个主流的派别:
频率派
古典派
主观派
1、频率派
学习概率从抛硬币开始才是正确的姿势,硬币抛出之后,得到的结果是随机的,那么得到正面的概率是多少呢?不妨扔100次硬币试试:
可以看到,得到48次正面,52次反面,用正面次数除以总的次数:
这就是正面出现的频率,为0.48。从实验的结果可见,随着实验次数n的增大,频率越来越趋近于0.5。可见,虽然单次扔硬币的结果是随机的,但多次重复后频率趋于稳定,这种稳定性也称为频率稳定性,反应了扔硬币存在某种必然性。
2、古典派
古典派的理论基础是不充分理由原则,代表人物雅各布·伯努利(1654-1705):
就提出,如果因为无知,使得我们没有办法判断哪一个结果会比另外一个结果更容易出现,那么应该给予它们相同的概率。比如:
硬币:由于不清楚硬币哪一面更容易出现,那么应该给予正面、反面相同的概率,即为1/2。
骰子:我们不清楚骰子哪一面更容易出现,那么应该给予每一面相同的概率,即为1/6。
3、主观派
主观派认为概率是信念强度。
如说,我个人相信20年后人类从网络时代进入人工智能时代的概率为70%。
上面说的概率也就是主观概率,是个人对这个命题的信念强度,换句话说我觉得还是很有可能实现的。
虽说是主观概率,其实也有客观的部分,比如刚才对人工智能的判断,就是基于AI的基础设置发展、计算速度的提高等事实。
主观概率更贴近人的思考方式,比如我们在作科学研究时,会先给出一个猜想,这就是给出了一个主观概率。
小结:
为什么概率的定义不明确?可能因为概率本身研究的就是“不确定性”。
概率分布
回答什么是概率分布之前,先了解下随机变量、数据类型和分布
随机变量是值为一个随机事件的结果的变量,例如,抛硬币的结果或者掷骰子的点数都是随机变量。
数据类型有两种,一种是离散数据,一种是连续数据。离散数据,就是数据的取值不连续,比如抛硬币,就是2种数值,要么是正面,要么是反面。连续数据,正好相反,它能取任意的数值。例如时间,就是一个典型的连续数据,它是无限分割的。
分布,就是数据在统计图中的形状。
什么是概率分布?概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。根据数据类型不一样,分为离散概率分布和连续概率分布。
例如,均匀6面骰子的离散概率分布为:
点数 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
概率 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
为什么要关注数据类型,因为数据类型会影响求概率的方法。
对于离散概率分布,我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为:p(x=正面)=1/2。
而对于连续概率分布来说,我们无法给出每一个数值的概率,因为我们不可能列举每一个精确数值。
例如,你在咖啡馆约妹子出来,你提前到了。为了给妹子留下好印象,你估计妹子会在5分钟之内出现,有可能是在4分钟10秒以后出现,或者在4分钟10.5秒以后出现,你不可能数清楚所有的可能时间,你更关心的是在妹子出现前的1-5分钟内(范围),你把发型重新整理下(虽然你因为加班头发已经秃顶了,但是发型不能乱),给妹子留个好印象。所以,对于像时间这样的连续型数据,你更关心的是一个特定范围的概率是多少。
当统计学家们开始研究概率分布时,他们看到,有几种形状反复出现,于是就研究他们的规律,根据这些规律来解决特定条件下的问题。
现实中,常见的4种概率分布。
1)3种离散概率分布
二项分布 泊松分布 几何分布
2)1种连续概率分布
正态分布
至于以上各种分布是怎么回事,每个分布都可以长篇大论,后期可以就每个分布写一篇文章。
数字特征
也许有人会问“为什么要学习随机变量的数字特征呢?学习过分布,我们经常会碰到这样的问题:
这个分布主要集中在哪个区域?
这个分布是胖还是瘦?
分布是不是对称的?
不对称的话是向左偏还是向右偏?
这些都是通过随机变量的数字特征来体现的,这就是了解随机变量数字特征的意义。
什么是数字特征?要回答这个问题,先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。任一客体或一组客体都具有众多特性,人们根据客体所共有的特性抽象出某一概念,该概念便成为了特征。数字特征是对于数字的一种抽象方式,不同的抽象方式表现数字不同方面的数字特征(如,均值表现平均水平,方差表示离散程度)。从信息的角度来说,特征化(抽象)是压缩信息的一种方式。
常见的数字特征
数学期望(均值)
方差
标准差
相关系数
1、数学期望(均值)
数学期望是随机变量的重要特征之一,随机变量X的数学期望记为E(X),E(X)是X的算术平均的近似值,数学期望表示了X的平均值大小。
当X为离散型随机变量时,并且其分布律为 P(X=xk) = pk ,其中k=1,2,…,n;则数学期期望:
当X为连续型随机变量时,设其概率密度为f(x),则数学期望为:
数学期望反映的是平均水平,通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,个体信息被压缩了,在刻画群体特征的时候,多个数字特征配合才能达到效果。
2、方差
数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征,用来衡量随机变量或一组数据时离散程度的度量。
设X是随机变量,并且E{[X-E(X)^2]}存在,则称它为X的方差,记为D(X)。
当X为离散型时,D(x)为:
当X为连续型时,D(x) 为:
方差的算术平方根为X的标准差:
另外,D(X) = E{[X-E(X)^2]} 经过化解可得 D(X) = E(X^2) – [E(X)]^2 .我们一般计算的时候常用这个式子。
标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。
4、相关系数
相关系数为了衡量两个变量之间的线性相关程度,数值范围处于[-1,1]。
其计算公式如下:
我们称为X与Y的相关系数。
|相关系数|<=1,如等于1,则说明X与Y存在线性关系。若等于0,则说明X与Y不相关,也就是说X与Y不存在线性关系。
PS:以上所有涉及到公式的地方,本文章讲的比较粗糙,建议可以找一本统计学的书籍仔细看看。
我们生活中和工作中有很多数据的分布,如正态分布,平均的占主要部分,极好的和极差的占少数,而且和平均值差别不会特别大,比如身高的分布、智商的分布等等。也有很多事件符合幂律分布,比如收入、股市波动、网站访问量、照片点击量、公众号文章的阅读量。要读懂这些数据的规律,都需要用到统计学的概率和概率分布知识。
所以我觉得要想成为合格的数据分析师,统计学是必须掌握的知识之一。
发表评论 取消回复