线性回归
最基本的机器学习算法必须是具有单个变量的线性回归算法。如今,可用的高级机器学习算法,库和技术如此之多,以至于线性回归似乎并不重要。但是,学习基础知识总是一个好主意。这样,您将非常清楚地理解这些概念。在本文中,我将逐步解释线性回归算法。
多元线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大
多项式回归
在统计学中, 多项式回归是回归分析的一种形式,其中自变量 x 和因变量 y 之间的关系被建模为关于 x 的 n 次多项式。多项式回归拟合x的值与 y 的相应条件均值之间的非线性关系,表示为 E(y|x),并且已被用于描述非线性现象,例如组织的生长速率[1]、湖中碳同位素的分布[2]以及沉积物和流行病的发展[3]。虽然多项式回归是拟合数据的非线性模型,但作为统计估计问题,它是线性的。在某种意义上,回归函数 E(y|x) 在从数据估计到的未知参数中是线性的。因此,多项式回归被认为是多元线性回归的特例。
逻辑回归
自上世纪以来,逻辑回归是一种流行的方法。它建立了分类变量和一个或多个自变量之间的关系。在机器学习中使用此关系来预测分类变量的结果。它被广泛用于许多不同的领域,例如医疗领域,贸易和商业,技术等等。
多类分类逻辑回归
普通的逻辑回归只能针对二分类问题,要想实现多个类别的分类,我们必须要改进逻辑回归,让其适应多分类问题。
关于这种改进,有两种方式可以做到。
第一种方式是直接根据每个类别,都建立一个二分类器,带有这个类别的样本标记为1,带有其他类别的样本标记为0。假如我们有k个类别,最后我们就得到了k个针对不同标记的普通的逻辑二分类器。
第二种方式是修改逻辑回归的损失函数,让其适应多分类问题。这个损失函数不再笼统地只考虑二分类非1就0的损失,而是具体考虑每个样本标记的损失。这种方法叫做softmax回归,即逻辑回归的多分类版本。
神经网络算法
神经网络已被开发来模仿人类的大脑。神经网络在机器学习中非常有效。它在1980年代和1990年代很流行。最近,它变得越来越流行。可能是因为计算机足够快,可以在合理的时间内运行大型神经网络。
如何应对算法效果不佳
我们花了很多时间来开发机器学习算法。但是在部署后,如果该算法性能不佳,那将令人沮丧。问题是,如果算法无法按预期工作,下一步应该怎么做。什么地方出了错?训练数据的数量是否足够?我们使用了正确的功能吗?我们是否应该继续收集更多数据?我们可以,但是那是非常耗时且昂贵的。我们应该添加更多功能吗?那也可能很昂贵。
往哪个方向走?
如果您的机器学习算法无法正常工作,下一步该怎么做?有几种选择:
- 获取更多的训练数据非常耗时。甚至可能需要数月的时间才能获得更多的研究数据。
- 获得更多的训练特征。也可能需要很多时间。但是,如果添加一些多项式特征可以工作,那就太酷了。
- 选择较小的一组训练特征。
- 增加正则项
- 减少正则项。
那么,接下来您应该尝试哪一个呢?开始尝试任何操作都不是一个好主意。因为您可能最终会花太多时间在无用的事情上。您需要先发现问题,然后采取相应措施。学习曲线有助于轻松检测问题,从而节省大量时间。
学习曲线对于确定如何提高算法性能非常有用。确定算法是否遭受偏差或拟合不足,方差或拟合过度,或两者兼而有之,这很有用。
精确度,召回率
如何处理机器学习中偏斜的数据集
用偏斜的数据集开发有效的机器学习算法可能很棘手。例如,数据集涉及银行中的欺诈活动或癌症检测。发生的情况是,您将在数据集中看到99%的时间没有欺诈活动或没有癌症。您可以很容易地作弊,并且始终可以仅预测0(如果癌症则预测1,如果没有癌症则预测0),从而获得99%的准确性。如果这样做,我们将拥有99%的准确机器学习算法,但我们将永远不会检测到癌症。如果某人患有癌症,他/他将永远得不到治疗。在银行中,不会采取任何针对欺诈活动的措施。因此,仅靠准确性就无法确定偏斜的数据集,就像算法是否有效运行一样。
有不同的评估矩阵可以帮助处理这些类型的数据集。这些评估指标称为精确召回评估指标。
要了精确度和召回率,您需要了解下表及其所有术语。考虑二进制分类。它将返回0或1。对于给定的训练数据,如果实际类别为1,而预测类别也为1,则称为真实肯定。如果实际类别为0,而预测类别为1,则为假阳性。如果实际类别为1,但预测类别为0,则称为假阴性。如果实际类别和预测类别均为0,则为真阴性。
使用所有这些,我们将计算精度和召回率。
K均值聚类
K均值聚类是最流行和广泛使用的无监督学习模型。它也称为群集,因为它通过群集数据来工作。与监督学习模型不同,非监督模型不使用标记数据。
该算法的目的不是预测任何标签。而是更好地了解数据集并对其进行标记。
在k均值聚类中,我们将数据集聚类为不同的组。
异常检测
异常检测可以作为离群分析的统计任务来对待。但是,如果我们开发一个机器学习模型,它可以自动化,并且像往常一样可以节省大量时间。有很多异常检测用例。信用卡欺诈检测,故障机器检测或基于其异常功能的硬件系统检测,基于病历的疾病检测都是很好的例子。还有更多的用例。而且异常检测的使用只会越来越多。
单变量和多元高斯分布
高斯分布是统计中最重要的概率分布,在机器学习中也很重要。因为许多自然现象,例如人口高度,血压,鞋子的尺码,诸如考试成绩之类的教育手段以及自然界中许多其他重要方面,都倾向于遵循高斯分布。
我敢肯定,您听说过这个词,并且在某种程度上也知道。如果没有,请不要担心。本文将对其进行清晰的解释。我在吴哥伦教授在Coursera的机器学习课程中发现了一些惊人的视觉效果。他知道如何将主题分解成小块,使其变得更容易并进行详细说明。
他使用了一些视觉效果,可以很容易地理解高斯分布及其与相关参数(例如均值,标准偏差和方差)的关系。
在本文中,我从他的课程中切出了一些视觉效果,并在这里用它来详细解释了高斯分布。
推荐系统
如今,我们到处都能看到推荐系统。当您在诸如Amazon,eBay或其他任何地方的在线市场上购买商品时,他们会推荐类似的产品。在Netflix或youtube上,您会在首页上看到与以前的活动或搜索类似的建议。他们是如何做到的?他们都遵循这一想法。也就是说,他们从您之前的活动中获取数据并进行相似性分析。根据该分析,他们会建议您喜欢的更多产品或视频或电影。
希望这些课程能够帮助你学习机器学习的基本知识,在新的一年里,解决更为复杂的问题。