Skip to content

第3章:统计学基础

统计学是数据分析的重要工具,它提供了一套方法论来帮助我们从数据中提取信息、建立模型,并进行推断。在人工智能和机器学习领域,统计学的原理和方法被广泛用于数据分析和模型评估。本章将介绍统计学的基本概念和方法。

3.1 描述性统计

描述性统计是数据分析的基础,它帮助我们快速了解数据集的基本特征。以下是一份描述性统计的教学资料,包括主要的概念和计算方法。

3.1.1 集中趋势度量

均值(Mean) 均值是数据集的平均值,计算公式为:

x¯=1ni=1nxi

其中,x¯ 是均值,xi 是每个数据点,n 是数据点的总数。

中位数(Median) 中位数是将数据集从小到大排序后位于中间位置的值。如果数据点总数 n 是奇数,中位数是排序后位于中间的数值;如果 n 是偶数,中位数是排序后中间两个数值的平均。

众数(Mode) 众数是数据集中出现频率最高的值。数据集可以有一个众数(单峰),多个众数(多峰),或没有众数(均匀分布)。

3.1.2 离散程度度量

极差(Range) 极差是数据集中最大值和最小值之间的差,计算公式为:

Range=MaxMin

其中,Max 是数据集中的最大值,Min 是数据集中的最小值。

四分位数间距(Interquartile Range, IQR) 四分位数间距是第三四分位数(Q3)与第一四分位数(Q1)之间的差,计算公式为:

IQR=Q3Q1

其中,Q1 是第一四分位数(25%分位数),Q3 是第三四分位数(75%分位数)。

方差(Variance) 方差是各数据点与均值差的平方的平均值,计算公式为:

s2=1n1i=1n(xix¯)2

其中,s2 是方差,xi 是每个数据点,x¯ 是均值,n 是数据点的总数。

标准差(Standard Deviation) 标准差是方差的平方根,计算公式为:

s=s2=1n1i=1n(xix¯)2

3.1.3 形状度量

偏度(Skewness) 偏度描述数据分布的不对称性,计算公式为:

Skewness=1ni=1n(xix¯)3s3

峰度(Kurtosis) 峰度描述数据分布的尖峭度或平坦度,计算公式为:

Kurtosis=1ni=1n(xix¯)4s43

3.1.4 数据可视化

直方图(Histogram) 直方图用条形图表示数据分布,每个条形代表数据在某个区间的频率或密度。

箱线图(Boxplot) 箱线图用五个关键数值(最小值、第一四分位数、中位数、第三四分位数、最大值)来描述数据分布。

散点图(Scatterplot) 散点图用点来表示两个变量之间的关系,每个点的横坐标和纵坐标分别对应两个变量的值。

3.2 假设检验

假设检验是统计学中用于根据样本数据对总体参数或分布进行推断的一种方法。它涉及对一个总体的假设进行检验,以确定是否有足够的证据来支持或拒绝这个假设。以下是假设检验的关键组成部分、步骤和例子:

3.2.1 假设的定义

  • 零假设(H0):这是一个默认的假设,通常表示没有效应或者没有差异。例如,在药物测试中,零假设可能是新药物与现有药物效果相同。
  • 备择假设(H1 或 Ha):这是研究者试图证明的假设,通常表示有效应或者有差异。在上述药物测试的例子中,备择假设可能是新药物比现有药物更有效。

3.2.2 显著性水平(α)

显著性水平是研究者设定的一个阈值,用于决定何时拒绝零假设。常见的显著性水平有0.05、0.01和0.10,分别对应5%、1%和10%的错误拒绝零假设的概率(第一类错误)。

3.2.3 检验统计量

检验统计量是一个数值,它根据样本数据计算得出,并用于决定是否拒绝零假设。不同的检验方法使用不同的检验统计量,例如:

  • Z检验:使用Z统计量,适用于大样本或已知总体标准差的情况。
  • t检验:使用t统计量,适用于小样本或未知总体标准差的情况。
  • 卡方检验:使用卡方统计量,适用于分类数据的拟合优度检验和独立性检验。

3.2.4 临界值和p值

  • 临界值:在给定的显著性水平下,用于决定是否拒绝零假设的阈值。
  • p值:在零假设为真的前提下,观察到的检验统计量值或更极端值的概率。如果p值小于或等于显著性水平α,通常拒绝零假设。

3.2.5 假设检验的步骤

  1. 陈述假设:明确零假设和备择假设。
  2. 选择显著性水平:设定显著性水平α。
  3. 计算检验统计量:根据样本数据计算检验统计量的值。
  4. 确定临界值或计算p值:确定临界值或计算p值。
  5. 做出决策:如果检验统计量超过临界值或p值小于α,则拒绝零假设;否则,不拒绝零假设。

3.2.6 假设检验的例子

假设我们想要检验一种新药是否比现有药物更有效。我们收集了两组患者的康复时间数据,一组使用新药,另一组使用现有药物。

  1. 陈述假设

    • 零假设 H0:新药与现有药物的康复时间均值相同,即 μ新药=μ现有药物
    • 备择假设 H1:新药的康复时间均值小于现有药物,即 μ新药<μ现有药物
  2. 选择显著性水平

    • 设定显著性水平 α=0.05
  3. 计算检验统计量

    • 假设两组数据的样本量分别为 n1n2,样本均值分别为 x¯1x¯2,样本标准差分别为 s1s2
    • 如果假设两组数据的方差相等,可以使用合并方差 sp,计算公式为:sp=(n11)s12+(n21)s22n1+n22
    • 检验统计量 t 的计算公式为:t=x¯1x¯2sp1n1+1n2
  4. 确定临界值或计算p值

    • 根据自由度 df=n1+n22 和显著性水平 α,从t分布表中找到临界值 tα,df
    • 或者,计算p值,即在零假设为真的情况下,观察到的t值或更极端值的概率。
  5. 做出决策

    • 如果 t 值小于临界值 tα,df 或p值小于 α,则拒绝零假设,认为新药比现有药物更有效。
    • 否则,不拒绝零假设,认为没有足够的证据表明新药比现有药物更有效。

3.2.7 假设检验的符号和公式

  • H0:零假设
  • H1:备择假设
  • α:显著性水平
  • t:t检验统计量
  • sp:合并方差
  • df:自由度
  • p:p值

3.2.8 假设检验的类型

  • 单尾检验:备择假设指定了一个方向(大于或小于)。
  • 双尾检验:备择假设没有指定方向,只是说存在差异。

3.3 置信区间

置信区间是统计学中用于估计总体参数的可能取值范围的一种方法。它与一个置信水平相关联,表示区间包含总体参数真值的概率。以下是置信区间的计算方法和步骤:

3.3.1 置信区间的计算公式

对于均值的置信区间,计算公式为:

x¯±tα/2,n1sn

其中:

  • x¯ 是样本均值
  • tα/2,n1 是t分布的临界值,α 是显著性水平,n1 是自由度
  • s 是样本标准差
  • n 是样本大小

对于比例的置信区间,计算公式为:

p^±zα/2p^(1p^)n

其中:

  • p^ 是样本比例
  • zα/2 是正态分布的临界值
  • n 是样本大小

3.3.2 置信区间的步骤

  1. 确定置信水平:选择一个置信水平,通常为95%或99%。
  2. 计算样本统计量:根据样本数据计算样本均值或样本比例。
  3. 确定标准误差:计算样本统计量的标准误差。
  4. 确定临界值:根据置信水平和样本统计量的抽样分布,确定临界值。
  5. 计算置信区间:使用上述公式计算置信区间。

3.3.3 置信区间的例子

假设我们想要估计一个总体的均值。我们从总体中抽取了一个样本,样本大小为30,样本均值为50,样本标准差为10。我们选择95%的置信水平。

  1. 确定置信水平α=0.05,所以 tα/2,n1=t0.025,29
  2. 计算样本统计量x¯=50
  3. 确定标准误差sn=10301.826
  4. 确定临界值:从t分布表中找到 t0.025,292.045
  5. 计算置信区间50±2.0451.82650±3.73所以,95%的置信区间为 [46.27,53.73]

3.3.4 置信区间的符号和公式

  • x¯:样本均值
  • p^:样本比例
  • s:样本标准差
  • n:样本大小
  • tα/2,n1:t分布的临界值
  • zα/2:正态分布的临界值

3.4 回归分析

回归分析是统计学中一种用于估计变量之间关系的方法,特别是因果关系。它帮助我们理解一个因变量(通常称为响应变量或结果变量)如何依赖于一个或多个自变量(通常称为解释变量或预测变量)。以下是回归分析的关键概念和类型:

3.4.1 回归分析的类型

简单线性回归

  • 定义:简单线性回归是最基本的回归分析形式,它涉及一个自变量和一个因变量,且它们之间的关系是线性的。
  • 模型
y=β0+β1x+ϵ
  • y 是因变量
  • x 是自变量
  • β0 是截距
  • β1 是斜率,表示x每变化一个单位,y的平均变化量
  • ϵ 是误差项

多元线性回归

  • 定义:多元线性回归涉及两个或多个自变量。
  • 模型
y=β0+β1x1+β2x2++βkxk+ϵ

逻辑回归

  • 定义:逻辑回归用于因变量是分类变量的情况,通常是二分类变量。
  • 模型
P(Y=1)=11+e(β0+β1x1+β2x2++βkxk)

3.4.2 回归分析的步骤

  1. 模型设定:确定因变量和自变量,设定回归模型的形式。
  2. 数据收集:收集相关数据。
  3. 参数估计:使用最小二乘法等统计方法估计模型参数。
  4. 模型检验:检验模型的假设条件是否满足,包括线性、独立性、同方差性和正态性。
  5. 模型优化:如果模型假设不满足,进行必要的模型诊断和优化。
  6. 结果解释:解释回归系数,评估模型的拟合优度。
  7. 预测和应用:使用模型进行预测和决策。

3.4.3 回归分析的关键概念

  • 回归系数:表示自变量对因变量的影响程度。
  • R平方(R²):表示模型解释的变异占总变异的比例。
  • 调整R平方:考虑自变量数量对R平方的影响。
  • F检验:用于检验模型的整体显著性。
  • t检验:用于检验单个回归系数的显著性。

3.4.4 回归分析的注意事项

  • 多重共线性:自变量之间高度相关可能导致回归系数的估计不稳定。
  • 异方差性:误差项的方差不恒定,可能导致标准误的估计不准确。
  • 模型选择:需要根据数据特点和研究目的选择合适的回归模型。

3.5 最大似然估计

最大似然估计(Maximum Likelihood Estimation, MLE)是一种统计方法,用于估计概率模型的参数。它通过最大化似然函数来找到最有可能产生观测数据的参数值。以下是最大似然估计的关键概念和步骤:

3.5.1 似然函数

似然函数是给定一组参数下观测数据的概率。对于独立同分布的样本,似然函数是各个样本概率的乘积。如果样本是连续的,似然函数是概率密度函数的乘积。

3.5.2 对数似然函数

为了简化计算,通常使用对数似然函数,它是似然函数的自然对数。对数似然函数将乘积转换为和,使得求导和计算更加方便。

3.5.3 最大似然估计的步骤

  1. 写出似然函数:根据数据的分布,写出似然函数 L(θ|x1,x2,,xn)
  2. 取对数:计算对数似然函数 (θ|x1,x2,,xn)=lnL(θ|x1,x2,,xn)
  3. 求导数:对对数似然函数关于参数 θ 求导数。
  4. 设置导数为零:解方程 ddθ=0,找到使对数似然函数最大化的参数值。
  5. 验证最大值:通过二阶导数或其它方法验证找到的参数值是否为最大值。

3.5.4 最大似然估计的例子

假设我们有一组独立同分布的样本 x1,x2,,xn,它们来自均值为 μ,方差为 σ2 的正态分布。我们想要估计 μσ2

  1. 似然函数

    L(μ,σ2|x1,x2,,xn)=i=1n12πσ2exp((xiμ)22σ2)
  2. 对数似然函数

    (μ,σ2|x1,x2,,xn)=n2ln(2π)n2ln(σ2)12σ2i=1n(xiμ)2
  3. 求导数

    μ=1σ2i=1n(xiμ)σ2=n2σ2+12(σ2)2i=1n(xiμ)2
  4. 设置导数为零

    1σ2i=1n(xiμ)=0μ=1ni=1nxi=x¯n2σ2+12(σ2)2i=1n(xiμ)2=0σ2=1ni=1n(xix¯)2
  5. 验证最大值:通过二阶导数或其它方法验证找到的参数值是否为最大值。

3.5.5 最大似然估计的性质

  • 一致性:在一定条件下,最大似然估计是参数的真值的一致估计。
  • 渐近正态性:在一定条件下,最大似然估计的分布渐近于正态分布。
  • 效率:在一定条件下,最大似然估计是所有无偏估计中效率最高的。

3.6 非参数统计

非参数统计(Nonparametric Statistics),也称为不完全指定分布的统计(Distribution-Free Statistics),是统计学中不依赖于总体分布具体参数的统计方法。非参数统计方法不需要对数据的分布做出具体的假设,因此对于不符合常见分布(如正态分布)的数据也适用。以下是非参数统计的一些关键概念和常用方法:

3.6.1 非参数统计的特点

  • 不需要分布假设:非参数方法不依赖于总体分布的具体形式,适用于任何分布的数据。
  • 鲁棒性:对异常值和非典型数据的鲁棒性较好。
  • 应用广泛:适用于小样本数据和顺序数据。

3.6.2 常用非参数方法

符号检验(Sign Test)

  • 用于比较两个相关样本的中位数是否相等。
  • 不需要数据的具体数值,只考虑数据的正负号。

曼-惠特尼U检验(Mann-Whitney U Test)

  • 用于比较两个独立样本的分布是否相同。
  • 基于数据的排名而不是具体数值。

威尔科克森符号秩检验(Wilcoxon Signed-Rank Test)

  • 用于比较两个相关样本的中位数是否相等。
  • 结合了数据的数值差异和符号信息。

克鲁斯卡尔-瓦利斯H检验(Kruskal-Wallis H Test)

  • 用于比较多于两个独立样本的分布是否相同。
  • 是曼-惠特尼U检验的扩展。

弗里德曼检验(Friedman Test)

  • 用于比较多个相关样本的分布是否相同。
  • 是威尔科克森符号秩检验的扩展。

斯皮尔曼等级相关系数(Spearman's Rank Correlation)

  • 用于评估两个变量之间的单调关系。
  • 不需要数据符合特定的分布。

肯德尔等级相关系数(Kendall's Tau)

  • 用于评估两个变量之间的关联程度。
  • 类似于斯皮尔曼等级相关系数,但计算方式不同。

3.6.3 非参数统计的优缺点

  • 优点

    • 不需要对数据分布做出假设。
    • 对异常值不敏感。
    • 适用于小样本数据。
  • 缺点

    • 功效可能低于参数方法。
    • 解释性可能不如参数方法直观。

非参数统计提供了一种灵活的数据分析方法,尤其适用于数据分布未知或不满足传统参数统计方法假设的情况。通过使用非参数方法,研究者可以更广泛地探索数据的内在结构和关系。

3.7 结论

统计学为我们提供了一套完整的工具来分析和解释数据,从描述性统计到推断性统计。在机器学习中,统计方法被用来构建模型、评估模型性能和进行预测。本章介绍的统计学基础是理解和应用机器学习算法的重要前提。