文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

SQL和Python的集合操作对比

2024-04-02 19:55

关注

本篇内容主要讲解“SQL和Python的集合操作对比”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“SQL和Python的集合操作对比”吧!

集合操作

分析式问题通常需要检查多个不同的数据集。在解答过程中,通过比较或组合不同的数据集来创建一组新数据集,非常有效。

例如,你可能有两个单独的表,其中包含要转换为单个事务表的事务性数据,你想把它们合并为一个表,或者创建一个同时包含两个表中数据的新事务表。

在SQL中,集合操作符可以解决这个问题。集合操作符支持对比性操作,可以有条件地连结两个SQL语句的结果集。SQL集合操作符包括:

虽然Python中没有特定的集合操作符种类,但Python中仍然有各种各样的函数可以实现这些功能。

为了说明如何在实践中使用这些集合操作,先假设你作为一名双边市场数据科学家。在你的市场中有买家和卖家,二者并不相互排斥。现在,买卖双方分别存在于buyers和sellers表格的数据库中。让我们来浏览一下集合操作可能发挥作用的几种场景。

合并和合并所有

假设你想把存在于buyers和sellers表格中的所有用户合并到一个新的单独的“用户”表格中。

在SQL中,你可以使用UNION操作符和可选ALL关键字来实现:

-- SQLselect user_id  from modeanalytics.buyers  union all  select user_id  from modeanalytics.sellers

在Python中,可以使用pandas .concat()函数复制上面执行的UNION ALL集合操作。

pandas  .concat()方法沿着选定的轴连接pandas对象(例如Dataframes,Series等)。假设您已将buyers和sellers数据库表格中user_id字段存储在两个pandas数据框对象中(buyers  和 sellers),你可以使用以下Python代码复制上面执行过的UNION ALL集合操作:

# Python users = pd.concat([buyers, sellers])

需要注意的是,在SQL中使用UNION和ALL关键字,或者在Python中使用pandas  concat()方法,你将把存在于两个表格中的用户(用户即是买家又是卖家)返回到重复行。但是,如果你只想返回存在于两个表中的一个用户的单一实例时:

在SQL中,从UNION集合操作符中移除ALL关键字:

-- SQLselect user_id  from modeanalytics.buyers  union  select user_id  from modeanalytics.sellers

在Python中,将.drop_duplicates()方法链接在连接pandas对象上:

# Python users = pd.concat([buyers, sellers]).drop_duplicates()

交集

反之,如果你想创建一个既是买家又是卖家的独立用户表格呢?

在SQL中,你可以使用INTERSECT集合操作符:

-- SQLselect user_id  from modeanalytics.buyers  intersect  select user_id  from modeanalytics.sellers

在Python中,你可以在数据框中使用pandas .merge()方法:

Python buyers_and_sellers = buyers.merge(sellers)

默认情况下,pandas  .merge()方法将尝试将两个数据框中的所有列进行“内部”合并。此默认操作基本复制了SQL集合操作符INTERSECT的步骤。

差集

现在,如果你想返回到所有买家用户,而不是卖家用户。

在SQL中,你可以使用EXCEPT集合操作:

-- SQL select user_id from modeanalytics.buyers except select user_id from modeanalytics.sellers

值得注意的是,SQL的EXCEPT集合操作符只能返回到***个表格,不能返回到第二个表格。如果你想要返回到卖方的表格中,你需要颠倒SELECT语句的顺序:

-- SQL select user_id from modeanalytics.sellers except select user_id from modeanalytics.buyers

在Python中,利用pandas布尔索引技术和pandas .isin() 索引来复制SQL EXCEPT集合操作符的功能:

# Python  buyers_not_sellers = buyers[buyers.user_id.isin(sellers.user_id) == False]  sellers_not_buyers = sellers[sellers.user_id.isin(buyers.user_id) == False]`

模糊界限

到这里,你已经了解了如何在Python中复制大量SQL集合操作符的功能。最终,编程模式的选择取决于你,甚至可以在项目基础上逐个改动。只有通过掌握分析语言功能上的重叠,才能有效做出决策。这就是使用多种数据分析语言的好处:你可以自定义一个混合方法来满足你不断发展的需求。

到此,相信大家对“SQL和Python的集合操作对比”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯