文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何在Python中加入多个数据帧?

2024-12-24 20:01

关注

下面是一个几乎让所有更有抱负的数据科学家都感到意外的场景:

你正在处理一个从多个源收集数据的项目。在进入探索和模型构建部分之前,你需要首先连接这些多个数据集(以表、数据帧等形式)。怎么能做到这一点而不丢失任何信息?

这听起来可能是一个简单的场景,但对于许多新来的人来说,这可能是一个威胁,特别是那些不熟悉Python编程的人。

进一步深入研究,我可以大致将其分为两种情况:

理解手头的问题

本文列举一个通俗易懂的例子。

想一下在一个特定的学校里考试。每个科目都有不同的老师授课。他们更新关于学生成绩和整体表现的档案。这些档案就是多个文件!

本文使用创建的两个这样的文件来演示Python中函数的工作。第一个文件包含关于12班学生的数据,另一个文件包含10班的数据。还将使用第三个文件来存储学生的姓名和学生ID。

注意:虽然这些数据集是从零开始创建的,但鼓励将所学应用于选择的数据集。

在Python中逐步合并数据帧的过程

下面是解决这个问题的方法:

步骤1:用Python加载数据集

本文将使用三个独立的数据集。首先,将这些文件加载到单独的数据帧中。

  1. import pandas as pd 
  1. marks10th=pd.read_csv('10thClassMarks.csv') 
  1. marks12th=pd.read_csv('12thClassMarks.csv') 
  1. IDandName=pd.read_csv('StudentIDandName.csv') 

前两个数据框包含学生的百分比及其学生ID。在第一个数据框中,有10班学生的分数,而第二个数据框包含第12个标准中学生的分数。第三个数据框包含学生的姓名以及各自的学生ID。

[[315918]]

来源:btime

使用“head”函数检查每个数据帧的前几行:

  1. marks10th.head() 
  1. marks12th.head() 
  1. IDandName.head() 

步骤2:合并两个相似的数据帧(Append)

把10、12班的档案合并起来,找出学生的平均分。这里使用Pandas库中的“append”函数:

  1. allMarks=marks10th.append(marks12th) 
  1. marks10th.shape, marks12th.shape, allMarks.shape 

输出((50,3),(50,3),(100,3))

从输出中可以看到,在append函数中垂直添加两个数据帧。

结果数据帧是allMarks。上面比较了所有三个数据帧的形状。

接下来看看“allMarks”的内容并计算平均值:

  1. allMarks['Exam Points'].mean() #Average Marks 

输出:49.74

步骤3:合并来自两个数据帧的信息(Merge)

现在,假设想找出在这两个批次中排名第一的学生的名字。这里不需要垂直添加数据帧。为了给学生的名字再加一列,我们将不得不水平缩放。

要做到这一点,我们会发现最高得分:

  1. allMarks['Exam Points'].max() # Maximum Marks 

输出:100

学生的最高成绩是100分。现在,使用“merge”函数查找此学生的姓名:

  1. mergedData=allMarks.merge(IDandName, on='student id'
  1. mergedData.head() 

最后,生成的数据框有学生的名字和他们的标记。

merge函数需要一个必要的属性,两个数据帧将在该属性上合并。需要传递此列的名称在“on”参数中。

merge函数的另一个重要论点是“如何”。这指定要在数据帧上执行的联接类型。以下是可以执行的不同连接类型(SQL用户将非常熟悉这一点):

还可以使用“sort”参数对数据帧进行排序。这些是合并两个数据帧时最常用的参数。

[[315919]]

来源:Pexels

现在,我们将看到数据框包含100个“检查点”的行:

  1. mergedData.loc[mergedData['Exam Points']==100] 

三个学生得了100分,其中两个在10班。做得好!

接下来,我的建议是接受包含3个不同文件的食物预测挑战。

很直截了当,对吧?

你再也不必为此而自责了!你可以继续并将其应用于选择的任何数据集。

 

来源:今日头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯