算法是一系列明确的步骤或规则,用于解决特定问题或完成特定任务。
在机器学习中,算法用于从数据中学习模式,并做出预测或决策。
示例:线性回归、决策树、支持向量机(SVM)、神经网络等都是常见的机器学习算法。例如,线性回归根据历史数据预测连续值(如房价)。
2.模型
模型是通过机器学习算法从数据中学习到的数学表示。它能够对新数据进行预测或分类。
示例:决策树模型可以根据输入特征来决定输出类别;神经网络模型可以识别图像中的物体。
3.训练数据
训练数据是指用于训练机器学习模型的数据集。
它由输入输出对组成,可帮助模型学习所需的任务。
训练数据越多样化、越有代表性,模型的性能就越好。
示例:对于预测房价的模型,训练数据可能包括房屋特征(如大小、卧室数量)及其相应的价格。
4.测试数据
测试数据是一个单独的数据集,用于评估机器学习模型在未知数据上的表现。
这有助于防止过度拟合,即模型在训练数据上可能表现良好,但在新数据上却表现不佳。
示例:训练垃圾邮件过滤器后,你可以在以前从未见过的电子邮件上对其进行测试,以检查其准确性。
5.特征
特征是模型用来进行预测的数据的单个可测量属性。
在机器学习的背景下,选择正确的特征对于构建良好的模型至关重要。
示例:在预测房价时,特征可能包括卧室数量、面积和位置。
6.标签
标签是与每个训练样本关联的目标值或类别。
在监督学习中,模型使用这些标签来学习输入和输出之间的关系。
示例:在预测电子邮件是否为垃圾邮件的模型中,标签将是“垃圾邮件”或“非垃圾邮件”。
7.过度拟合
过度拟合是指模型对训练数据(包括噪声和异常值)的学习过于深入,导致新数据上的表现不佳。
这意味着模型与训练数据的拟合程度过高,使其通用性较差。
示例:由于过度拟合,模型在训练数据上表现完美,但在测试数据上表现不佳。
8.欠拟合
当模型过于简单,无法捕捉数据中的模式时,就会发生欠拟合,从而导致训练和测试数据的性能不佳。
示例:使用线性回归来拟合一个明显非线性的关系,导致预测误差较大。
9.准确性
准确性是衡量分类模型正确预测的比例。计算方法是正确预测的数量除以总预测数量。
示例:如果一个模型能够正确识别 100 封电子邮件中的 90 封是否为垃圾邮件,则其准确率为 90%。
10.精确率和召回率
精确率和召回率是评价分类模型的重要指标,尤其是在不平衡的数据集中。
- 精确率:在所有被模型预测为正类的样本中,实际为正类的比例。
- 召回率:在所有实际为正类的样本中,模型正确预测为正类的比例。
示例:在疾病筛查中,高精确率意味着大多数被诊断为患病的人确实患病;高召回率意味着大多数实际患病的人被成功识别。
11.学习率
学习率是一个超参数,它控制模型权重相对于损失梯度的更新程度。
较高的学习率可能会导致模型收敛过快而错过最优解,而较低的学习率则可能导致训练过程过慢。
示例:在神经网络中,学习率决定了模型在训练期间从错误中学习的速度。
12.epoch
一个 epoch 是指在模型训练过程中对整个训练数据集进行一次完整的遍历。
多个 epoch 可以让模型更好地学习,因为它会在每次遍历中调整其权重。
示例:如果有1000个训练样本,1个epoch意味着模型已经看过所有1000个样本一次。
13.超参数
超参数是在训练之前设置的参数,用于控制学习过程和模型结构。
与模型参数不同,超参数不能通过训练直接学习到。
示例:学习率、批量大小(batch size)、神经网络的层数和每层的神经元数量等都是常见的超参数。
14.损失函数
损失函数用于衡量模型预测值与真实值之间的差距。
训练过程中,模型通过最小化损失函数来进行优化。
示例:均方误差(MSE)常用于回归任务,交叉熵损失常用于分类任务。
15.正则化
正则化是一种技术,用于防止模型过度拟合。
它通过在损失函数中添加惩罚项,限制模型的复杂度。
示例:
- L1正则化:通过加上权重绝对值的和,促使一些权重变为零,实现特征选择。
- L2正则化:通过加上权重平方和,限制权重的大小,防止过度拟合。