最强总结，机器学习中必会的 15 个关键术语！！-编程学习网

算法是一系列明确的步骤或规则，用于解决特定问题或完成特定任务。

在机器学习中，算法用于从数据中学习模式，并做出预测或决策。

示例：线性回归、决策树、支持向量机（SVM）、神经网络等都是常见的机器学习算法。例如，线性回归根据历史数据预测连续值（如房价）。

2.模型

模型是通过机器学习算法从数据中学习到的数学表示。它能够对新数据进行预测或分类。

示例：决策树模型可以根据输入特征来决定输出类别；神经网络模型可以识别图像中的物体。

3.训练数据

训练数据是指用于训练机器学习模型的数据集。

它由输入输出对组成，可帮助模型学习所需的任务。

训练数据越多样化、越有代表性，模型的性能就越好。

示例：对于预测房价的模型，训练数据可能包括房屋特征（如大小、卧室数量）及其相应的价格。

4.测试数据

测试数据是一个单独的数据集，用于评估机器学习模型在未知数据上的表现。

这有助于防止过度拟合，即模型在训练数据上可能表现良好，但在新数据上却表现不佳。

示例：训练垃圾邮件过滤器后，你可以在以前从未见过的电子邮件上对其进行测试，以检查其准确性。

5.特征

特征是模型用来进行预测的数据的单个可测量属性。

在机器学习的背景下，选择正确的特征对于构建良好的模型至关重要。

示例：在预测房价时，特征可能包括卧室数量、面积和位置。

6.标签

标签是与每个训练样本关联的目标值或类别。

在监督学习中，模型使用这些标签来学习输入和输出之间的关系。

示例：在预测电子邮件是否为垃圾邮件的模型中，标签将是“垃圾邮件”或“非垃圾邮件”。

7.过度拟合

过度拟合是指模型对训练数据（包括噪声和异常值）的学习过于深入，导致新数据上的表现不佳。

这意味着模型与训练数据的拟合程度过高，使其通用性较差。

示例：由于过度拟合，模型在训练数据上表现完美，但在测试数据上表现不佳。

8.欠拟合

当模型过于简单，无法捕捉数据中的模式时，就会发生欠拟合，从而导致训练和测试数据的性能不佳。

示例：使用线性回归来拟合一个明显非线性的关系，导致预测误差较大。

9.准确性

准确性是衡量分类模型正确预测的比例。计算方法是正确预测的数量除以总预测数量。

示例：如果一个模型能够正确识别 100 封电子邮件中的 90 封是否为垃圾邮件，则其准确率为 90%。

10.精确率和召回率

精确率和召回率是评价分类模型的重要指标，尤其是在不平衡的数据集中。

精确率：在所有被模型预测为正类的样本中，实际为正类的比例。
召回率：在所有实际为正类的样本中，模型正确预测为正类的比例。

示例：在疾病筛查中，高精确率意味着大多数被诊断为患病的人确实患病；高召回率意味着大多数实际患病的人被成功识别。

11.学习率

学习率是一个超参数，它控制模型权重相对于损失梯度的更新程度。

较高的学习率可能会导致模型收敛过快而错过最优解，而较低的学习率则可能导致训练过程过慢。

示例：在神经网络中，学习率决定了模型在训练期间从错误中学习的速度。

12.epoch

一个 epoch 是指在模型训练过程中对整个训练数据集进行一次完整的遍历。

多个 epoch 可以让模型更好地学习，因为它会在每次遍历中调整其权重。

示例：如果有1000个训练样本，1个epoch意味着模型已经看过所有1000个样本一次。

13.超参数

超参数是在训练之前设置的参数，用于控制学习过程和模型结构。

与模型参数不同，超参数不能通过训练直接学习到。

示例：学习率、批量大小（batch size）、神经网络的层数和每层的神经元数量等都是常见的超参数。

14.损失函数

损失函数用于衡量模型预测值与真实值之间的差距。

训练过程中，模型通过最小化损失函数来进行优化。

示例：均方误差（MSE）常用于回归任务，交叉熵损失常用于分类任务。

15.正则化

正则化是一种技术，用于防止模型过度拟合。

它通过在损失函数中添加惩罚项，限制模型的复杂度。

示例：

L1正则化：通过加上权重绝对值的和，促使一些权重变为零，实现特征选择。
L2正则化：通过加上权重平方和，限制权重的大小，防止过度拟合。

文章详情

最强总结，机器学习中必会的 15 个关键术语！！