文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

怎么在R语言中实现两表连接且输出不重复数据

2023-06-14 08:53

关注

本篇文章给大家分享的是有关怎么在R语言中实现两表连接且输出不重复数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

说明:

在项目过程中,数据量较大,用到的是data.table包,需要用到SQL中的语句减少代码量,因此需要sqldf包。

以下例子中xx中的a1在yy中都有对应的值。

yy中的a1与b是一一对应的关系,不存在同一个a1值对应不同的b值。

此程序的目的是,用yy表与xx表匹配,也就是最终的结果应该是在xx的基础上增加b这一列的信息,数据集xx的行数不变。

如下所示:

<span >> library(data.table)> library(sqldf)> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span><span >> xx  a1 c  d1: 1 8 adf2: 2 5  af3: 3 8 sdf4: 4 6 utr5: 5 23  af6: 6 7 ruti</span>
<span >yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',                            'f','h','i','b','b','c','f'))</span>
<span >> yy  a1 b 1: 2 b 2: 3 c 3: 1 a 4: 4 d 5: 5 e 6: 5 e 7: 7 g 8: 6 f 9: 8 h10: 9 i11: 2 b12: 2 b13: 3 c14: 6 f</span>
<span >#按照a1连接所有信息包括进去 > dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)> dataxy   a1 c  d b 1: 1 8 adf a 2: 2 5  af b 3: 2 5  af b 4: 2 5  af b 5: 3 8 sdf c 6: 3 8 sdf c 7: 4 6 utr d 8: 5 23  af e 9: 5 23  af e10: 6 7 ruti f11: 6 7 ruti f</span>
<span >#删除重复的行*/ > sqldf("select DISTINCT a1,b,c,d from left1") a1 b c  d1 1 a 8 adf2 2 b 5  af3 3 c 8 sdf4 4 d 6 utr5 5 e 23  af6 6 f 7 ruti</span>

补充:R语言筛选出不重复的行的几种方法

在做项目的过程中遇到筛选不重复的会员信息进行匹配,本次介绍五种筛选不重复行的数据:

五种方法如下:

>>> library(dplyr)>>> library(sqldf)

方法一:

>>> data1 <- data7_0 %>%        group_by(CELLPHONE,MEMBERID) %>%       filter(row_number() == 1) %>%       ungroup()

方法二:

>>> data2 <- data7_0 %>%        distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)

方法三:

>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")

方法四:

>>> data4 <- base::unique(data7_0)

方法五:

>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

以上就是怎么在R语言中实现两表连接且输出不重复数据,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯