作者介绍
00
写在前面的话
✦
作者注:
请读者原谅笔者中英混杂的文风和日渐退化的中文表达
本文中的一些测试题最好先思考、再看答案哦
统计学是数据分析的基石和重要部分,你也许在生活或者工作中已经多次用一些统计学概念(比如“平均值”)来理解你分析的数据的平均水平;统计学的很多概念也是机器学习算法的基础,所以想深入学习机器学习,需要先补充统计学的知识。
统计学可以分为描述性统计和推断性统计(inferential statistics)。前者包含我们非常熟悉的平均值、众数、中位数、标准差等,后者是通过样本推断更大的数据或者适用于总体的结论,假设检验就是一个例子。本文会带你快速过一遍统计里的关键知识点,并用提问的方式举例统计的应用。
01
基础统计
✦
大家肯定对平均值、众数、中位数的定义和公式都非常熟悉,这里主要强调
如果所有的数都只出现了一次,那就没有众数,如果两个值同时出现最高频次,就有2个众数,这就是著名的bimodal distribution(比如消费者在餐厅的就餐时间就遵循这样的分布,如下图)
Note: A bimodal distribution is a probability distribution with two modes(众数).
中位数是排序后找位置(n+1)/2的数,如果结果是x.5就要找x和x+1位置的数,取平均值
中位数是80意味着有一半的数比80大
平均数有它的局限性,以下3组数的平均数相同,但明显是很不一样特征的数,所以我们还要看一个dataset的标准差(standard deviation)以表示数据的variability(变化)
补充一下离散型随机变量的标准差算法
Z-score:用标准差来衡量一个数离平均值的距离(适用于正态分布的情况,后面会和t-statistics以及t-distribution进行区分)
例子:美国数据分析师的平均年薪$100,000, 标准差$20,000, Lucy年薪$60,000,她的年薪的z-score是多少呢?
(60-100)/20= - 2,也即比全国平均水平低2个标准差
经验法则/ 3-sigma法则empirical rule = 68–95–99.7 rule适用于对称的正态分布的数据,它的意思是68%的数据在平均值+-1个标准差的范围内,95%的数据在平均值+-2个标准差的范围内(准确来说是1.96个),99.7%的数据在平均值+-3个标准差的范围内。这3个数据能让你在算出你的z-score后更快的理解你的数据所处的位置。
02
概率与统计
✦
概率是统计学习中不可或缺的一环。概率probability就是期望的结果除以所有可能的结果,比如从一副牌中抽到Q的概率是4/52,但现实生活的所有可能的结果有时候不那么容易枚举,所以需要借助permutation(排列)和combination(组合)
有8个选手参赛,只给前3颁奖,前三名的可能性有多少?
注意这里顺序重要,所以用排列。A38 = 8X7X6= 336种
12个人里面随机选4个人参赛,Lily和Lucy想一起参赛,Lily和Lucy一起参赛的probability是多少?
分母:所有可能的结果 = C412 = (12X11X10X9)/(4X3X2X1) = 495
分子:期望的结果 = C210 = 10X9/(2X1) = 45 (已经确定Lily和Lucy会参加,所以是从剩下的10个人里选2个)
本题里顺序不重要,所以用组合。
Nth percentile的意思是n%的数低于这个值。
The 25th percentile is also called the first quartile(一分位数).
The 50th percentile is the median
The 75th percentile is also called the third quartile.
The difference between the third and first quartiles is the interquartile range.
问:60个人参加考试,Lily考了满分的85%(只有她考了这个分数),有45个人比她考得高,她的percentile是多少?
Percentile的计算公式 (#values below + 0.5)/ total #of values X 100
(60-45-1)+0.5/60 = 24% -> 24th percentile
多事件概率
a. 遇到either or(多种情况)的事件,可以考虑1-补集的概率。
抛硬币2次,任意一次是正面都算你赢,你赢的概率是多少?
P(你赢的概率) = 1-P(你输的概率) = 1-P(两次都是背面的概率) = 1- ½ * ½ = ¾
Note:这里用到了独立事件的可乘性
经典例题:有一种病10,000人里有一个会得,得病的人里99%的人都能被测出有病(test positive),没病的人里2%的人也会被测出有病,问测出有病的人里有多少概率实际没病?
Event A: 实际没病 no disease
Event B: 被测出有病test positive
可以用逻辑树帮你理清这些数的含义(如下图)。
P(B|A) = 2%
P(A) = 1-1/10000= 99.99%
P(B) = 0.01% * 99% + 99.99% * 2% = 2.0097%
P(A|B) = 99.99% * 2%/2.0097% = 99.5%
换句话说测出有病的人里只有0.5%的人实际真的有病,那也许被test positive也不用太慌张,可能是误诊了/虚惊一场。
c. Binomial distribution二项分布是离散概率分布的一种,求n个独立事件中x次成功的概率
我们定义一组人“有趣”为这组人中最多有5对组合是朋友,我们假设每对组合是不是朋友的概率为1/2,问一个4人的组“有趣”的概率是多少?
4个人的组,朋友的组合是C42 = 6种,没趣的情况就是6种组合都是朋友,如果N是一个组中朋友的对数,N就符合二项分布 N~bin(6,1/2) (6个独立组合里,是朋友的概率是1/2),没趣的概率就是(1/2)^6,有趣的概率就是1-1/64= 63/64.
03
样本 sample与总体 population
✦
因为在现实中很多时候我们很难收集到所需的全部研究对象的数据,所以用样本推断总体是一种常见的方式,但我们又要保证选取的样本能代表总体,这就涉及到很多统计学知识。
先明确sample proportion (样本比例)and sample mean(样本均值)的区别
Sample proportion: 一群数据中某特征的比例
p̂ = x / n
•x: 样本中具备某特征的数据
•n: 样本中所有数据点
Sample mean: 样本的平均值
x = Σxi / n
中心极限定理:随着样本个数和每个样本中的数据量增加,sample mean会接近population mean,sample proportion会接近population proportion
已知总体比例(population proportion)求样本比例区间。问:国家手机统计报告表示60%的人对自己的手机提供商表示满意,如果我取100个人为样本, 68%的随机样本里会有%多少到%多少的人对自己的手机提供商表示满意?
根据之前提到的empirical rule,68%的随机样本包含了离population proportion 1个标准差的的样本 - 1 standard deviation of the population proportion,题目中60%是population proportion,standard deviation of the population proportion的公式是
置信区间Confidence interval。是通过一个样本来推测总体均值/比例在95% confident的情况下落在哪个区间。
其中 p hat是一个样本中某事件的概率。而z-score取决于你要多少的confidence interval,95%的置信区间对应的z-score是1.96。注:当p hat是一个样本而不是总体的proportion时,standard error被叫做sampling error。
假设检验hypothesis test
第一步建立假设,注意H0(null hypothesis)是现状,是没差别,Ha (alternative hypothesis)是事情有改变,或者你想测试的东西。
假设检验的关键之一是选择统计指标,
例子一:我们想知道Lily能不能成为班长,所以随机选了500个人做问卷,54%的人投了她,但是这数据有多可信还是偶然呢,我们建立了建设检验
H0: p<= 0.5 (Lily落选)
Ha: p> 0.5 (Lily当选)
选5%的significance level(显著性水平)。我们想知道54%离population proportion 50%有多远,所以选z-test,
z = (x – μ) / σ = (0.54-0.5)/ sqrt(0.5*(1-0.5)/500) = 1.79
其中 μ (the population mean) and σ (the population standard deviation)
population proportion的standard deviation是sqrt(0.5*(1-0.5)/500)
根据z-score来算p-value,P value是H0成立的情况下,获得现有情况/数据/z值或者更大z值的概率,所以从z-score table我们看到1.79对应的0.9633,但因为hypothesis是one-sided,p-value应该是1-0.9633 = 0.0367 < 0.05,拒绝原假设,在5% 显著性水平, 有足够证据表明Lily会当选.
还可以用Z Score to P Value Calculator 去找z-score对应的p-value,Calculator 会让你选是one-tailed还是two-tailed hypothesis。
当p value < significance level (通常是0.05),就reject H0拒绝原假设,否则不能拒绝原假设,注意这里不是接受原假设,类比于判断一个人是不是有罪,我们只能说不能判定ta有罪,但不是证明ta无罪。
不知不觉就写了几千字,下篇再分享更多2 populations之间比较,2 samples之间比较,3个几多个组之间的比较差异是否显著,以及什么时候用z-test,t-test和f-test。
发表评论 取消回复