2021年，送给码农的免费Python机器学习课程-编程学习网

线性回归

最基本的机器学习算法必须是具有单个变量的线性回归算法。如今，可用的高级机器学习算法，库和技术如此之多，以至于线性回归似乎并不重要。但是，学习基础知识总是一个好主意。这样，您将非常清楚地理解这些概念。在本文中，我将逐步解释线性回归算法。

多元线性回归

在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。因此多元线性回归比一元线性回归的实用意义更大

多项式回归

在统计学中，多项式回归是回归分析的一种形式，其中自变量 x 和因变量 y 之间的关系被建模为关于 x 的 n 次多项式。多项式回归拟合x的值与 y 的相应条件均值之间的非线性关系，表示为 E(y|x)，并且已被用于描述非线性现象，例如组织的生长速率[1]、湖中碳同位素的分布[2]以及沉积物和流行病的发展[3]。虽然多项式回归是拟合数据的非线性模型，但作为统计估计问题，它是线性的。在某种意义上，回归函数 E(y|x) 在从数据估计到的未知参数中是线性的。因此，多项式回归被认为是多元线性回归的特例。

逻辑回归

自上世纪以来，逻辑回归是一种流行的方法。它建立了分类变量和一个或多个自变量之间的关系。在机器学习中使用此关系来预测分类变量的结果。它被广泛用于许多不同的领域，例如医疗领域，贸易和商业，技术等等。

多类分类逻辑回归

普通的逻辑回归只能针对二分类问题，要想实现多个类别的分类，我们必须要改进逻辑回归，让其适应多分类问题。

关于这种改进，有两种方式可以做到。

第一种方式是直接根据每个类别，都建立一个二分类器，带有这个类别的样本标记为1，带有其他类别的样本标记为0。假如我们有k个类别，最后我们就得到了k个针对不同标记的普通的逻辑二分类器。

第二种方式是修改逻辑回归的损失函数，让其适应多分类问题。这个损失函数不再笼统地只考虑二分类非1就0的损失，而是具体考虑每个样本标记的损失。这种方法叫做softmax回归，即逻辑回归的多分类版本。

神经网络算法

神经网络已被开发来模仿人类的大脑。神经网络在机器学习中非常有效。它在1980年代和1990年代很流行。最近，它变得越来越流行。可能是因为计算机足够快，可以在合理的时间内运行大型神经网络。

如何应对算法效果不佳

我们花了很多时间来开发机器学习算法。但是在部署后，如果该算法性能不佳，那将令人沮丧。问题是，如果算法无法按预期工作，下一步应该怎么做。什么地方出了错?训练数据的数量是否足够?我们使用了正确的功能吗?我们是否应该继续收集更多数据?我们可以，但是那是非常耗时且昂贵的。我们应该添加更多功能吗?那也可能很昂贵。

往哪个方向走?

如果您的机器学习算法无法正常工作，下一步该怎么做?有几种选择：

获取更多的训练数据非常耗时。甚至可能需要数月的时间才能获得更多的研究数据。
获得更多的训练特征。也可能需要很多时间。但是，如果添加一些多项式特征可以工作，那就太酷了。
选择较小的一组训练特征。
增加正则项
减少正则项。

那么，接下来您应该尝试哪一个呢?开始尝试任何操作都不是一个好主意。因为您可能最终会花太多时间在无用的事情上。您需要先发现问题，然后采取相应措施。学习曲线有助于轻松检测问题，从而节省大量时间。

学习曲线对于确定如何提高算法性能非常有用。确定算法是否遭受偏差或拟合不足，方差或拟合过度，或两者兼而有之，这很有用。

精确度，召回率

如何处理机器学习中偏斜的数据集

用偏斜的数据集开发有效的机器学习算法可能很棘手。例如，数据集涉及银行中的欺诈活动或癌症检测。发生的情况是，您将在数据集中看到99%的时间没有欺诈活动或没有癌症。您可以很容易地作弊，并且始终可以仅预测0(如果癌症则预测1，如果没有癌症则预测0)，从而获得99%的准确性。如果这样做，我们将拥有99%的准确机器学习算法，但我们将永远不会检测到癌症。如果某人患有癌症，他/他将永远得不到治疗。在银行中，不会采取任何针对欺诈活动的措施。因此，仅靠准确性就无法确定偏斜的数据集，就像算法是否有效运行一样。

有不同的评估矩阵可以帮助处理这些类型的数据集。这些评估指标称为精确召回评估指标。

要了精确度和召回率，您需要了解下表及其所有术语。考虑二进制分类。它将返回0或1。对于给定的训练数据，如果实际类别为1，而预测类别也为1，则称为真实肯定。如果实际类别为0，而预测类别为1，则为假阳性。如果实际类别为1，但预测类别为0，则称为假阴性。如果实际类别和预测类别均为0，则为真阴性。

使用所有这些，我们将计算精度和召回率。

K均值聚类

K均值聚类是最流行和广泛使用的无监督学习模型。它也称为群集，因为它通过群集数据来工作。与监督学习模型不同，非监督模型不使用标记数据。

该算法的目的不是预测任何标签。而是更好地了解数据集并对其进行标记。

在k均值聚类中，我们将数据集聚类为不同的组。

异常检测

异常检测可以作为离群分析的统计任务来对待。但是，如果我们开发一个机器学习模型，它可以自动化，并且像往常一样可以节省大量时间。有很多异常检测用例。信用卡欺诈检测，故障机器检测或基于其异常功能的硬件系统检测，基于病历的疾病检测都是很好的例子。还有更多的用例。而且异常检测的使用只会越来越多。

单变量和多元高斯分布

高斯分布是统计中最重要的概率分布，在机器学习中也很重要。因为许多自然现象，例如人口高度，血压，鞋子的尺码，诸如考试成绩之类的教育手段以及自然界中许多其他重要方面，都倾向于遵循高斯分布。

我敢肯定，您听说过这个词，并且在某种程度上也知道。如果没有，请不要担心。本文将对其进行清晰的解释。我在吴哥伦教授在Coursera的机器学习课程中发现了一些惊人的视觉效果。他知道如何将主题分解成小块，使其变得更容易并进行详细说明。

他使用了一些视觉效果，可以很容易地理解高斯分布及其与相关参数(例如均值，标准偏差和方差)的关系。

在本文中，我从他的课程中切出了一些视觉效果，并在这里用它来详细解释了高斯分布。

推荐系统

如今，我们到处都能看到推荐系统。当您在诸如Amazon，eBay或其他任何地方的在线市场上购买商品时，他们会推荐类似的产品。在Netflix或youtube上，您会在首页上看到与以前的活动或搜索类似的建议。他们是如何做到的?他们都遵循这一想法。也就是说，他们从您之前的活动中获取数据并进行相似性分析。根据该分析，他们会建议您喜欢的更多产品或视频或电影。

希望这些课程能够帮助你学习机器学习的基本知识，在新的一年里，解决更为复杂的问题。

文章详情

2021年，送给码农的免费Python机器学习课程

软考中级精品资料免费领

相关文章

猜你喜欢

2021年，送给码农的免费Python机器学习课程

免费Python机器学习课程三：多项式回归

免费Python机器学习课程九：K均值聚类

免费Python机器学习课程一：线性回归算法

免费Python机器学习课程六：神经网络算法

免费Python机器学习课程八：精确度，召回率

免费Python机器学习课程二：多元线性回归

免费Python机器学习课程四：逻辑回归算法

免费Python机器学习课程五：多类分类逻辑回归

2021年码农应该了解的所有机器学习算法

免费Python机器学习课程七：如何应对算法效果不佳