文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python两个Excel多Sheet数据对比

2024-11-29 21:06

关注

第一步:安装必要的库

确保你的Python环境中已安装pandas和openpyxl。如果没有安装,可以通过以下命令安装:

pip install pandas openpyxl

第二步:读取Excel文件中的多个Sheet

使用pandas.ExcelFile或pandas.read_excel直接读取多个Sheet的数据。

import pandas as pd
# 读取第一个Excel文件的所有Sheet
xlsx1 = pd.ExcelFile('file1.xlsx')
sheets1 = {sheet_name: xlsx1.parse(sheet_name) for sheet_name in xlsx1.sheet_names}
# 读取第二个Excel文件的所有Sheet
xlsx2 = pd.ExcelFile('file2.xlsx')
sheets2 = {sheet_name: xlsx2.parse(sheet_name) for sheet_name in xlsx2.sheet_names}

第三步:对比数据

对比两个Excel文件中相同名称的Sheet。我们可以逐个Sheet进行对比,寻找不一致的数据行。


# 创建一个空的字典来存储对比结果
comparison_results = {}
for sheet_name in sheets1.keys():
    if sheet_name in sheets2:
        # 如果两个文件都有相同的Sheet,则进行对比
        df1 = sheets1[sheet_name]
        df2 = sheets2[sheet_name]
        # 比较两个DataFrame
        comparison = df1.merge(df2, how='outer', indicator=True)
        comparison_results[sheet_name] = comparison[comparison['_merge'] != 'both']

第四步:分析差异

上述对比会返回一个新DataFrame,其中包含标记为left_only或right_only的行,表示只在左侧或右侧数据集中存在。此外,还可以通过left和right后缀访问原始数据列。


# 分析差异
for sheet_name, result in comparison_results.items():
    if not result.empty:
        print(f"Differences found in '{sheet_name}':")
        print(result)

第五步:保存对比结果

将对比结果保存到新的Excel文件中,便于后续分析或报告。


with pd.ExcelWriter('comparison_results.xlsx') as writer:
    for sheet_name, result in comparison_results.items():
        if not result.empty:
            result.to_excel(writer, sheet_name=sheet_name, index=False)

完整代码示例

下面是将上述步骤整合在一起的完整代码示例:


import pandas as pd
# 读取Excel文件
xlsx1 = pd.ExcelFile('file1.xlsx')
xlsx2 = pd.ExcelFile('file2.xlsx')
# 读取所有Sheet
sheets1 = {sheet_name: xlsx1.parse(sheet_name) for sheet_name in xlsx1.sheet_names}
sheets2 = {sheet_name: xlsx2.parse(sheet_name) for sheet_name in xlsx2.sheet_names}
# 创建一个空的字典来存储对比结果
comparison_results = {}
# 对比数据
for sheet_name in sheets1.keys():
    if sheet_name in sheets2:
        df1 = sheets1[sheet_name]
        df2 = sheets2[sheet_name]
        comparison = df1.merge(df2, how='outer', indicator=True)
        comparison_results[sheet_name] = comparison[comparison['_merge'] != 'both']
# 保存对比结果
with pd.ExcelWriter('comparison_results.xlsx') as writer:
    for sheet_name, result in comparison_results.items():
        if not result.empty:
            result.to_excel(writer, sheet_name=sheet_name, index=False)

通过上述步骤,你可以有效地对比两个Excel文件中多个Sheet的数据,找出差异并保存结果。这种方法特别适用于财务审计、数据清洗或任何需要跨数据集一致性检查的场景。

希望这篇指南能够帮助你在Python中处理复杂的Excel数据对比任务。

来源:测试开发学习交流内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯