文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

机器学习新风暴:如何用ML模型预测房价?

2024-12-03 17:01

关注

从驾驶汽车到识别语音+翻译,机器学习通过软件预测变幻莫测的现实世界,正在人工智能领域掀起一场风暴。

[[352721]]

所以,什么是机器学习?

机器学习是教计算机系统使用反馈的旧数据进行预测的过程,基本上是训练计算机根据过去的数据预测未来的数据。这些预测可以很简单,例如鉴定照片中的动物是猫还是狗,难度也可以递进至对语音准确识别来生成网站字幕或运行视频或音乐之类的事情。

机器学习种类

机器学习大致分为两大类:监督学习和无监督学习。

监督学习是用示例教学机器的方法。这些机器接受了大量数据的训练,从而学会识别图案,并可以根据训练数据来识别和区分数据。

而无监督学习是使用算法来识别数据集的模式,其中的数据点既未分类也未标记。算法从数据集中提取有用的信息或特征来分析其底层结构,并依此对数据进行分类。

来看看怎样使用监督学习来构建机器学习模型。

第一步:熟悉数据

任何机器学习项目的第一步都是熟悉数据。对此可以使用Pandas库。Pandas是数据科学家探索和处理数据的主要工具。

 

 

Pandas库中最重要的是DataFrame。DataFrame相当于保存数据的表,类似SQL数据库中的表。Pandas有处理DataFrame中数据的强大方法。拿加利福尼亚房价数据举例。(文件路径:../input/california-housing-prices/housing.csv)使用以下命令加载和浏览数据:

 

 

第二步:选择建模数据

研究DataFrame的数据后会发现它有10列,其中有9列是数字数据,“Ocean proximity”一列有字符串类型数据。我们只用数字数据就可以构建任何模型,因此可以直接删掉“Ocean proximity”列。

 

 

然后删掉空值的列,如下:

 

 

第三步:选择预测目标(Y)和特征(X)

下一步是选择预测目标(Y),也就是“median_house_value”列。所以分配Y为“ median_house_value”。其余特征为X。从数据集中移除“ median_house_value”列,然后将余下的分配为X,如下所示:

 

 

 

 

第四步:构建模型

使用scikit-learn库创建模型。该库在代码中以sklearn形式编写。当用存储在DataFrames中的数据类型进行建模时,最受欢迎的库就是Scikit-learn。建立和使用模型的步骤是:

现在,使用scikit-learn(sklearn)来定义线性回归模型,并将其与特征和目标变量进行拟合,并获得“ median_house_value”的预测值。导入以下库使用scikit-learn(sklearn)。

 

 

为线性回归模型创建一个变量。并且还使用train_test_split函数将数据分为训练和测试数据。在这里,我使用了25%的数据进行测试,而剩余的75%则用于训练模型。

 

 

第五步:拟合模型

用训练数据拟合线性回归模型。

 

 

完成后,预测功能通过使用X的测试值来预测房价。然后使用得分功能通过模型获得预测值的准确度,如下所示:

 

 

可以看到,模型预测正确率在66%左右。

第六步:画图

现在用X测试值和预测值(输出)画图,如下:

 

 

一个拟合的模型完成啦,我们可以用它预测。实际使用时,我们可以对即将上市的新房子做预测。

本例是关于如何在数据集上拟合线性回归模型并用来预测房价。我们还可以将相同的数据拟合到决策树上或用来支持向量机,并比较哪种模型预测得更好。

希望本文能帮到那些正在尝试建立第一个机器学习线性回归模型的人。

 

来源:读芯术内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯