Skip to content

第2章:机器学习基础

2.1 机器学习的基本概念

机器学习是人工智能的一个核心组成部分,它使计算机系统能够利用数据来提高性能,而无需进行明确的编程。机器学习可以被分为几种类型,每种类型都适用于解决特定类型的问题。

2.1.1 监督学习

监督学习是一种机器学习方法,其中模型从标记的训练数据学习,以便能够预测未见过的数据的输出。这种类型的学习通常用于分类和回归任务。

  • 分类:预测离散标签,例如垃圾邮件检测。
  • 回归:预测连续值,例如房价预测。

2.1.2 无监督学习

无监督学习涉及无标签数据,目的是发现数据中的模式或结构。这种类型的学习用于聚类和关联规则学习。

  • 聚类:将数据分组,使得同一组内的数据点相似度高,不同组之间的相似度低,例如市场细分。
  • 降维:减少数据的复杂性,同时保留重要特征,例如主成分分析(PCA)。

2.1.3 强化学习

强化学习是一种不同的方法,其中智能体通过与环境的交互来学习。它用于优化决策过程,以实现长期目标。

  • 策略学习:智能体学习在不同状态下采取的最佳行动。
  • 价值函数学习:智能体学习评估不同状态或行动的价值。

2.2 机器学习的主要算法

2.2.1 线性模型

  • 线性回归:预测连续值。
  • 逻辑回归:用于二分类问题。

2.2.2 决策树

  • 一种树状模型,用于分类和回归。

2.2.3 支持向量机(SVM)

  • 一种强大的分类技术,也可用于回归(称为SVR)。

2.2.4 随机森林

  • 集成多个决策树以提高预测准确性。

2.2.5 神经网络

  • 模仿人脑结构的算法,用于广泛的任务。

2.3 机器学习的工作流程

机器学习项目通常遵循以下步骤:

  1. 问题定义:明确你想要解决的问题类型。
  2. 数据收集:收集相关数据。
  3. 数据预处理:清洗和准备数据以供模型使用。
  4. 特征工程:选择和构建模型训练的特征。
  5. 模型选择:选择适当的机器学习算法。
  6. 训练模型:使用训练数据训练模型。
  7. 模型评估:评估模型的性能。
  8. 参数调优:优化模型参数以提高性能。
  9. 模型部署:将模型应用于实际问题。

2.4 机器学习中的评估指标

选择合适的评估指标对于机器学习至关重要,常见的评估指标包括:

  • 准确率:分类正确的样本比例。
  • 召回率:成功识别的正样本比例。
  • 精确度:预测为正的样本中实际为正的比例。
  • F1分数:精确度和召回率的调和平均值。
  • 均方误差(MSE):回归任务中预测值与实际值差的平方的平均值。

2.5 机器学习的挑战

机器学习项目可能会遇到多种挑战,包括:

  • 数据不平衡:某些类别的样本数量远多于其他类别。
  • 过拟合:模型在训练数据上表现良好,但在新数据上表现差。
  • 欠拟合:模型过于简单,无法捕捉数据的基本关系。

2.6 结论

本章介绍了机器学习的基本概念、不同类型的学习任务、主要算法、工作流程和评估指标。这些知识为进一步深入学习机器学习技术奠定了基础。