文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

2020年入门数据分析选择Python还是SQL?七个常用操作对比!

2024-12-03 19:16

关注

[[346689]]

在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入MySQL与pandas中,一边敲代码一边阅读!

https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

一、选择

在SQL中,我们可以使用SELECT语句从表选择数据,结果被存储在一个结果表中,语法如下:

  1. SELECT column_name,column_name 
  2. FROM table_name; 

如果不想显示全部的记录,可以使用TOP或LIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句

  1. SELECT total_bill, tip, smoker, time 
  2. FROM tips 
  3. LIMIT 5; 

而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择

在SQL中,进行选择的同时还可以进行计算,比如添加一列

  1. SELECT *, tip/total_bill as tip_rate 
  2. FROM tips 
  3. LIMIT 5; 

在pandas中使用DataFrame.assign()同样可以完成这个操作

二、查找

1. 单条件查找

在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下

  1. SELECT column_name,column_name 
  2. FROM table_name 
  3. WHERE column_name operator value; 

比如查找示例数据中time = dinner的记录

  1. SELECT * 
  2. FROM tips 
  3. WHERE time = 'Dinner' 
  4. LIMIT 5; 

而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行

2. 多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

在pandas中也有类似的操作

3. 查找空值

在pandas检查空值是使用notna()和isna()方法完成的。

  1. frame[frame['col1'].notna()] 

在SQL中可以使用IS NULL和IS NOT NULL完成

  1. SELECT * 
  2. FROM frame 
  3. WHERE col2 IS NULL; 
  4.  
  5. SELECT * 
  6. FROM frame 
  7. WHERE col1 IS NOT NULL; 

三、更新

在SQL中使用UPDATE

  1. UPDATE tips 
  2. SET tiptip = tip*2 
  3. WHERE tip < 2

而在pandas中则有多种方法,比如使用loc函数

  1. tips.loc[tips['tip'] < 2, 'tip'] *= 2 

四、删除

在SQL中使用DELETE

  1. DELETE FROM tips 
  2. WHERE tip > 9; 

在pandas中,我们选择应保留的行,而不是删除它们

  1. tipstips = tips.loc[tips['tip'] <= 9] 

五、分组

在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询

  1. SELECT sex, count(*) 
  2. FROM tips 
  3. GROUP BY sex; 

在pandas中的等价操作为

注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!

六、连接

在pandas可以使用join()或merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接

  1. df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 
  2.    ....:                     'value': np.random.randn(4)}) 
  3.    ....:  
  4.  
  5. df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'], 
  6.    ....:                     'value': np.random.randn(4)}) 

1. 内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOIN

  1. SELECT * 
  2. FROM df1 
  3. INNER JOIN df2 
  4.   ON df1.key = df2.key; 

在pandas中可以使用merge()

merge()提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起👇

2. 左/右外联接

在SQL中实现左/右外连接可以使用LEFT OUTER JOIN和RIGHT OUTER JOIN

  1. SELECT * 
  2. FROM df1 
  3. LEFT OUTER JOIN df2 
  4.   ON df1.key = df2.key; 
  5.    
  6. SELECT * 
  7. FROM df1 
  8. RIGHT OUTER JOIN df2 
  9.   ON df1.key = df2.key; 

在pandas中实现同样可以使用merge()并指定how关键字为left或者right即可

3. 全连接

全连接返回左表和右表中的所有行,无论是否匹配,但并不是所有的数据库都支持,比如mysql就不支持,在SQL中实现全连接可以使用FULL OUTER JOIN

  1. SELECT * 
  2. FROM df1 
  3. FULL OUTER JOIN df2 
  4.   ON df1.key = df2.key; 

在pandas中实现同样可以使用merge()并指定how关键字为outer

七、合并

SQL中UNION操作用于合并两个或多个SELECT语句的结果集,UNION与UNION ALL类似,但是UNION将删除重复的行。示例代码如下

  1. SELECT city, rank 
  2. FROM df1 
  3. UNION ALL 
  4. SELECT city, rank 
  5. FROM df2; 
  6.  

在pandas中可以使用concat()实现UNION ALL

上面是UNION ALL保留重复值,如果希望删除可以使用 drop_duplicates()

以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性,如果你想深入学习了解可以进一步查阅官方文档并多加练习!

 

来源:早起Python内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯