零基础统计学入门（3）：概率与概率分布

5256 阅读 0 评论 5 点赞

概率一词，历史悠久，非常重要。日常生活中，有很多意思与概率非常贴近的词，包括几率、不确定性、运气、命运、可能性、不可预测性、倾向......等等。掌握统计概率常识，网上很多问题可能就不应该被提出来，它们归根结底就是概率问题。

比如这样的问题：

为什么高考状元，最后都很平庸？
为什么学区房那么值钱，但学历不值钱？
为什么一个清华毕业的，收入还干不过咪蒙？

当然，统计概率知识是推断统计学的基础，也是以后从事数据分析、机器学习、深度学习的基础知识。学会这些知识，可以为我们未来的选择多一个机会，希望大家在学校和工作中，好好学习统计学。

概率

当我们说，

“这个粒子衰变的概率是50%；”

“掷硬币正面朝上的概率是50%；”

“这个手术成功的概率是60%；”

“Trump被弹劾的概率是5%；”

都是什么意思？

这其实是一个非常深刻的哲学问题，一般被称作为"概率的解释"。概率论需要回答的第一个问题就是，什么是概率？

刚接触这门学科的同学可能觉得难以置信，这么一个简单的问题仍然存在着广泛的争论。

对于概率的定义有几个主流的派别：

频率派
古典派
主观派

1、频率派

学习概率从抛硬币开始才是正确的姿势，硬币抛出之后，得到的结果是随机的，那么得到正面的概率是多少呢？不妨扔100次硬币试试：

可以看到，得到48次正面，52次反面，用正面次数除以总的次数：

这就是正面出现的频率，为0.48。从实验的结果可见，随着实验次数n的增大，频率越来越趋近于0.5。可见，虽然单次扔硬币的结果是随机的，但多次重复后频率趋于稳定，这种稳定性也称为频率稳定性，反应了扔硬币存在某种必然性。

2、古典派

古典派的理论基础是不充分理由原则，代表人物雅各布·伯努利（1654－1705）：

就提出，如果因为无知，使得我们没有办法判断哪一个结果会比另外一个结果更容易出现，那么应该给予它们相同的概率。比如：

硬币：由于不清楚硬币哪一面更容易出现，那么应该给予正面、反面相同的概率，即为1/2。

骰子：我们不清楚骰子哪一面更容易出现，那么应该给予每一面相同的概率，即为1/6。

3、主观派

主观派认为概率是信念强度。

如说，我个人相信20年后人类从网络时代进入人工智能时代的概率为70%。

上面说的概率也就是主观概率，是个人对这个命题的信念强度，换句话说我觉得还是很有可能实现的。

虽说是主观概率，其实也有客观的部分，比如刚才对人工智能的判断，就是基于AI的基础设置发展、计算速度的提高等事实。

主观概率更贴近人的思考方式，比如我们在作科学研究时，会先给出一个猜想，这就是给出了一个主观概率。

小结：

为什么概率的定义不明确？可能因为概率本身研究的就是“不确定性”。

概率分布

回答什么是概率分布之前，先了解下随机变量、数据类型和分布

随机变量是值为一个随机事件的结果的变量，例如，抛硬币的结果或者掷骰子的点数都是随机变量。

数据类型有两种，一种是离散数据，一种是连续数据。离散数据，就是数据的取值不连续，比如抛硬币，就是2种数值，要么是正面，要么是反面。连续数据，正好相反，它能取任意的数值。例如时间，就是一个典型的连续数据，它是无限分割的。

分布，就是数据在统计图中的形状。

什么是概率分布？概率分布就是在统计图中表示概率，横轴是数据的值，纵轴是横轴上对应数据值的概率。根据数据类型不一样，分为离散概率分布和连续概率分布。

例如，均匀6面骰子的离散概率分布为：

点数	1	2	3	4	5	6
概率	1/6	1/6	1/6	1/6	1/6	1/6

为什么要关注数据类型，因为数据类型会影响求概率的方法。

对于离散概率分布，我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为:p(x=正面)=1/2。

而对于连续概率分布来说，我们无法给出每一个数值的概率，因为我们不可能列举每一个精确数值。

例如，你在咖啡馆约妹子出来，你提前到了。为了给妹子留下好印象，你估计妹子会在5分钟之内出现，有可能是在4分钟10秒以后出现，或者在4分钟10.5秒以后出现，你不可能数清楚所有的可能时间，你更关心的是在妹子出现前的1-5分钟内（范围），你把发型重新整理下（虽然你因为加班头发已经秃顶了，但是发型不能乱），给妹子留个好印象。所以，对于像时间这样的连续型数据，你更关心的是一个特定范围的概率是多少。

当统计学家们开始研究概率分布时，他们看到，有几种形状反复出现，于是就研究他们的规律，根据这些规律来解决特定条件下的问题。

现实中，常见的4种概率分布。

1）3种离散概率分布

二项分布泊松分布几何分布

2）1种连续概率分布

正态分布

至于以上各种分布是怎么回事，每个分布都可以长篇大论，后期可以就每个分布写一篇文章。

数字特征

也许有人会问“为什么要学习随机变量的数字特征呢？学习过分布，我们经常会碰到这样的问题：

这个分布主要集中在哪个区域？
这个分布是胖还是瘦？
分布是不是对称的？
不对称的话是向左偏还是向右偏？

这些都是通过随机变量的数字特征来体现的，这就是了解随机变量数字特征的意义。

什么是数字特征？要回答这个问题，先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。任一客体或一组客体都具有众多特性，人们根据客体所共有的特性抽象出某一概念，该概念便成为了特征。数字特征是对于数字的一种抽象方式，不同的抽象方式表现数字不同方面的数字特征（如，均值表现平均水平，方差表示离散程度）。从信息的角度来说，特征化（抽象）是压缩信息的一种方式。

常见的数字特征

数学期望（均值）
方差
标准差
相关系数

1、数学期望（均值）

数学期望是随机变量的重要特征之一,随机变量X的数学期望记为E(X),E(X)是X的算术平均的近似值,数学期望表示了X的平均值大小。

当X为离散型随机变量时,并且其分布律为 P(X=xk) ＝ pk ,其中k=1,2,…,n；则数学期期望：

当X为连续型随机变量时,设其概率密度为f(x),则数学期望为：

数学期望反映的是平均水平，通过它，我们能够了解一个群体的平均水平（比如说，一个班平均成绩80）。但另外一个方面，它所包含的信息也是十分有限的，个体信息被压缩了，在刻画群体特征的时候，多个数字特征配合才能达到效果。

2、方差

数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征，用来衡量随机变量或一组数据时离散程度的度量。

设X是随机变量,并且E{[X-E(X)^2]}存在,则称它为X的方差,记为D(X)。

当X为离散型时,D(x)为：

当X为连续型时,D(x) 为：

方差的算术平方根为X的标准差：

另外,D(X) = E{[X-E(X)^2]} 经过化解可得 D(X) = E(X^2) – [E(X)]^2 .我们一般计算的时候常用这个式子。

标准差和均值的量纲（单位）是一致的，在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm，方差就无法做到这点。

4、相关系数

相关系数为了衡量两个变量之间的线性相关程度，数值范围处于[-1,1]。

其计算公式如下：

我们称为X与Y的相关系数。

|相关系数|<=1，如等于1，则说明X与Y存在线性关系。若等于0，则说明X与Y不相关，也就是说X与Y不存在线性关系。

PS：以上所有涉及到公式的地方，本文章讲的比较粗糙，建议可以找一本统计学的书籍仔细看看。

我们生活中和工作中有很多数据的分布，如正态分布，平均的占主要部分，极好的和极差的占少数，而且和平均值差别不会特别大，比如身高的分布、智商的分布等等。也有很多事件符合幂律分布，比如收入、股市波动、网站访问量、照片点击量、公众号文章的阅读量。要读懂这些数据的规律，都需要用到统计学的概率和概率分布知识。

所以我觉得要想成为合格的数据分析师，统计学是必须掌握的知识之一。

1、统计学知识大梳理（终极篇）

2、学习统计学必须掌握的几个核心概念

点赞(5) 打赏

本文分类：数据分析
本文标签：统计学概率分布
浏览次数：5256 次浏览
发布日期：2020-05-22 13:16:43
本文链接：http://shujurenclub.com/a/ling-ji-chu-tong-ji-xue-ru-men-3-gai-lv-yu-gai-lv-fen-bu.html

上一篇 > 学习统计学必须掌握的几个核心概念
下一篇 > 聊聊APP数据分析的那些思路

零基础统计学入门（3）：概率与概率分布

1、统计学知识大梳理（终极篇）

2、学习统计学必须掌握的几个核心概念

评论列表共有 0 条评论

发表评论取消回复

零基础统计学入门（3）：概率与概率分布

1、统计学知识大梳理（终极篇）

2、学习统计学必须掌握的几个核心概念

零基础统计学入门（3）：概率与概率分布

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复