Skip to content

第4章:微积分基础

微积分是数学的一个分支,它主要研究变化率和累积量。在人工智能和机器学习中,微积分的概念和技巧被用于优化算法和理解动态系统。本章将介绍微积分的基本概念和运算。

4.1 导数和微分

导数和微分是微积分中的基本概念,它们描述了函数在某一点的瞬时变化率和变化量。

4.1.1 导数(Derivative)

  1. 定义:函数 f(x) 在点 x 的导数,记作 f(x)dfdx,定义为:

    f(x)=limh0f(x+h)f(x)h

    这表示函数在 x 点的瞬时变化率。

  2. 几何意义:导数在几何上表示函数曲线在某一点的切线斜率。

  3. 物理意义:在物理学中,导数可以表示速度(位移对时间的导数)和加速度(速度对时间的导数)。

4.1.2 微分(Differential)

  1. 定义:函数 f(x) 在点 x 的微分,记作 dfdy,定义为:

    df=f(x)dx

    其中 dx 是自变量 x 的微小变化量,df 是函数 f(x) 的相应微小变化量。

  2. 几何意义:微分在几何上表示函数曲线在某一点的切线的增量。

  3. 物理意义:在物理学中,微分可以表示位移的微小变化。

4.1.3 导数和微分的关系

导数和微分是密切相关的概念。导数是函数在某一点的瞬时变化率,而微分是函数在某一点的微小变化量。微分是导数与自变量微小变化量的乘积。

4.1.4 常用导数公式

  1. 常数函数ddx(c)=0
  2. 幂函数ddx(xn)=nxn1
  3. 指数函数ddx(ex)=ex
  4. 对数函数ddx(lnx)=1x
  5. 三角函数
    • ddx(sinx)=cosx
    • ddx(cosx)=sinx
    • ddx(tanx)=sec2x

导数和微分是理解变化和运动的基本工具,它们在理论和应用中都具有重要的地位。

4.2 偏导数和梯度

偏导数和梯度是多变量微积分中的基本概念,它们描述了多变量函数在某一点的局部变化率和变化方向。

4.2.1 偏导数(Partial Derivative)

  1. 定义:对于多变量函数 f(x1,x2,,xn),关于第 i 个变量 xi 的偏导数,记作 fxi,定义为:

    fxi=limh0f(x1,,xi+h,,xn)f(x1,,xi,,xn)h

    这表示在其他变量保持不变的情况下,函数关于 xi 的瞬时变化率。

  2. 几何意义:偏导数在几何上表示函数曲面在某一点沿坐标轴方向的切线斜率。

4.2.2 梯度(Gradient)

  1. 定义:函数 f(x1,x2,,xn) 在点 (x1,x2,,xn) 的梯度,记作 fgradf,是一个向量,其第 i 个分量是函数关于第 i 个变量的偏导数:

    f=(fx1,fx2,,fxn)
  2. 几何意义:梯度向量的方向是函数增长最快的方向,其大小表示函数在该方向上的变化率。

4.2.3 偏导数和梯度的关系

偏导数是梯度向量的分量,梯度向量是由所有偏导数组成的向量。梯度向量提供了函数在某一点的局部变化信息,包括变化方向和变化率。

4.2.4 常用偏导数公式

  1. 幂函数xi(x1a1x2a2xnan)=aix1a1x2a2xiai1xnan
  2. 指数函数xi(ex1+x2++xn)=ex1+x2++xn
  3. 对数函数xi(ln(x1x2xn))=1xi

偏导数和梯度是理解多变量函数变化的基本工具,它们在理论和应用中都具有重要的地位。

4.3 积分

积分是微积分中的一个基本概念,它与导数互为逆运算。积分分为不定积分和定积分两种,分别用于求解函数的原函数和计算函数在某个区间上的累积量。

4.3.1 不定积分(Indefinite Integral)

  1. 定义:函数 f(x) 的不定积分,记作 f(x)dx,是 f(x) 的一个原函数,即一个函数 F(x) 使得 F(x)=f(x)。不定积分的结果是一个函数族,它们相差一个常数。

  2. 基本积分公式

    • xndx=xn+1n+1+Cn1
    • 1xdx=ln|x|+C
    • exdx=ex+C
    • sinxdx=cosx+C
    • cosxdx=sinx+C

4.3.2 定积分(Definite Integral)

  1. 定义:函数 f(x) 在区间 ([a, b]) 上的定积分,记作 abf(x)dx,表示 f(x) 在 ([a, b]) 上的累积量。定积分的结果是一个数。

  2. 基本定理:如果 F(x)f(x) 的一个原函数,那么

    abf(x)dx=F(b)F(a)

4.3.3 积分的计算方法

  1. 换元积分法:通过变量替换简化积分。
  2. 分部积分法:利用 udv=uvvdu 的公式进行积分。
  3. 数值积分:当积分无法用初等函数表示时,使用数值方法近似计算。

积分是理解变化和累积的基本工具,它在理论和应用中都具有重要的地位。通过积分,我们可以求解函数的原函数,计算函数在某个区间上的累积量,以及解决各种实际问题。

4.4 泰勒展开和线性近似

泰勒展开(Taylor Expansion)和线性近似(Linear Approximation)是数学中用于近似函数的方法,它们在科学和工程领域有广泛的应用。

4.4.1 泰勒展开

  1. 定义:泰勒展开是将一个在某点可导的函数表示为该点的导数的无穷级数。对于函数 f(x) 在点 a 的泰勒展开式为:

    f(x)=f(a)+f(a)(xa)+f(a)2!(xa)2+f(a)3!(xa)3+

    其中,f(n)(a) 表示 f(x) 在点 a 的第 n 阶导数。

  2. 几何意义:泰勒展开式可以看作是函数在某一点的局部近似,通过不断增加项数,可以更精确地逼近函数。

  3. 应用:泰勒展开在物理学、工程学和经济学等领域用于近似复杂函数,简化计算。

4.4.2 线性近似

  1. 定义:线性近似是泰勒展开的一阶近似,即只取泰勒展开式的前两项。对于函数 f(x) 在点 a 的线性近似为:

    f(x)f(a)+f(a)(xa)
  2. 几何意义:线性近似是函数在某一点的切线,它提供了函数在该点附近的一个线性模型。

  3. 应用:线性近似在科学和工程中用于简化复杂函数的计算,特别是在函数的非线性效应不显著时。

4.4.3 泰勒展开和线性近似的例子

假设我们想要近似函数 f(x)=exx=0 附近的值。

  1. 泰勒展开

    ex=1+x+x22!+x33!+

    例如,当 x=0.1 时,泰勒展开的前四项近似为:

    e0.11+0.1+0.122+0.136=1.105166667
  2. 线性近似

    ex1+x

    例如,当 x=0.1 时,线性近似为:

    e0.11+0.1=1.1

4.4.4 泰勒展开和线性近似的优缺点

  • 优点

    • 泰勒展开可以提供函数的高精度近似。
    • 线性近似简单易计算,适用于函数的局部近似。
  • 缺点

    • 泰勒展开的计算复杂度随项数增加而增加。
    • 线性近似只适用于函数的局部近似,且精度有限。

泰勒展开和线性近似是数学中重要的近似方法,它们在理论和应用中都具有重要的地位。通过这些方法,我们可以更好地理解和计算复杂函数的行为。

4.5 多变量函数的优化

多变量函数的优化是数学和工程学中的一个重要问题,它涉及找到函数的最大值或最小值。以下是多变量函数优化的基本概念和方法:

4.5.1 无约束优化

梯度下降法(Gradient Descent)

  • 定义:梯度下降法是一种迭代算法,用于寻找函数的局部最小值。在每一步,算法沿着函数梯度的反方向移动,直到找到一个最小值。
  • 公式xn+1=xnαf(xn)
    • xn 是第 n 次迭代的点
    • α 是学习率
    • f(xn) 是函数 fxn 处的梯度

牛顿法(Newton's Method)

  • 定义:牛顿法是一种迭代算法,用于寻找函数的根。在优化问题中,它用于寻找函数的临界点(梯度为零的点)。
  • 公式xn+1=xnH1(xn)f(xn)
    • H(xn) 是函数 fxn 处的海森矩阵

4.5.2 约束优化

拉格朗日乘数法(Lagrange Multiplier Method)

  • 定义:拉格朗日乘数法用于在存在约束条件时寻找函数的极值。它引入拉格朗日乘数来处理约束。
  • 公式L(x,λ)=f(x)λg(x)
    • f(x) 是目标函数
    • g(x) 是约束函数
    • λ 是拉格朗日乘数

4.5.3 优化问题的类型

  • 凸优化:如果目标函数和约束函数都是凸函数,那么优化问题称为凸优化问题。凸优化问题具有良好的性质,如局部最小值也是全局最小值。
  • 非凸优化:如果目标函数或约束函数不是凸函数,那么优化问题称为非凸优化问题。非凸优化问题可能有多个局部最小值,找到全局最小值可能很困难。

4.5.4 优化算法

  • 梯度下降法:适用于无约束优化问题。
  • 牛顿法:适用于无约束优化问题,但需要计算海森矩阵的逆。
  • 拉格朗日乘数法:适用于约束优化问题。
  • 线性规划:适用于线性目标函数和线性约束的优化问题。
  • 非线性规划:适用于非线性目标函数和非线性约束的优化问题。

多变量函数的优化是数学和工程学中的一个基本问题,它涉及找到函数的最大值或最小值。通过使用不同的优化方法,我们可以解决各种实际问题。

4.6 微分方程

微分方程是数学中描述自然现象和工程问题的一种重要工具。它涉及函数及其导数,用于表达变量之间的关系。以下是微分方程的基本概念和类型:

4.6.1 微分方程的定义

微分方程是一个包含未知函数及其导数的方程。根据未知函数的导数的最高阶数,微分方程可以分为一阶、二阶、高阶微分方程。

4.6.2 微分方程的类型

普通微分方程(Ordinary Differential Equation, ODE)

  • 定义:只包含一个自变量的微分方程。
  • 例子dydx=f(x,y)

偏微分方程(Partial Differential Equation, PDE)

  • 定义:包含两个或多个自变量的微分方程。
  • 例子2ux2+2uy2=0

4.6.3 微分方程的解

  • 通解:包含任意常数的解,这些常数的个数与微分方程的阶数相同。
  • 特解:在通解中给定特定条件(如初始条件或边界条件)后得到的解。

4.6.4 微分方程的求解方法

分离变量法

  • 适用范围:适用于可分离变量的微分方程。
  • 步骤:将变量分离到方程的两边,然后分别积分。

积分因子法

  • 适用范围:适用于一阶线性微分方程。
  • 步骤:找到积分因子,将方程乘以积分因子,然后积分。

特征方程法

  • 适用范围:适用于常系数线性微分方程。
  • 步骤:假设解的形式为 erx,代入方程得到特征方程,求解特征方程得到 r 的值。

变量代换法

  • 适用范围:适用于某些非线性微分方程。
  • 步骤:通过变量代换将非线性方程转化为线性方程。

微分方程是理解变化和运动的基本工具,它们在理论和应用中都具有重要的地位。通过微分方程,我们可以更准确地描述和预测自然现象和工程问题。

4.7 结论

微积分为理解和应用机器学习算法提供了强大的数学工具。从函数的局部变化(导数)到整体累积(积分),再到动态系统的描述(微分方程),微积分的概念在机器学习模型的构建和优化中扮演着关键角色。掌握微积分基础对于深入理解机器学习算法至关重要。