文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

SparkSQL中DataFrame与DataSet如何使用

2023-06-20 20:52

关注

本篇文章给大家分享的是有关SparkSQL中DataFrame与DataSet如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。


1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

指定列名添加Schema

通过StrucType指定Schema

编写样例类,利用反射机制推断Schema

1.1.1指定列名添加Schema
//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//代码// 1.创建SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()// 2.使用spark 获取sparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext 读取文件并按照空格切分 返回RDD    val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将RDD 转换为DataFrame 指定元数据信息    val dataFrame = rowRDD.toDF("id","name","age")//6.数据展示    dataFrame.show()
1.1.2StructType指定Schema
//导包import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}//编写代码//1.实例SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.根据SparkSession获取SparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext读取文件并按照空开切分并返回元组    val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.使用StructType 添加元数据信息    val schema = StructType(List(      StructField("id", IntegerType, true),      StructField("name", StringType, true),      StructField("age", IntegerType, true)    ))//6.将数据与元数据进行拼接 返回一个DataFrame    val dataDF = spark.createDataFrame(rowRDD,schema)//7.数据展示    dataDF.show()
1.1.3反射推断Schema
//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//定义单例对象  case class Person(Id:Int,name:String,age:Int)//编写代码//1.实例sparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.通过sparkSession获取sparkContext 上下文对象    val sc = spark.sparkContext//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中    val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将rowRDD转换为dataFrame    val dataFrame = rowRDD.toDF()    //6.数据展示    dataFrame.show()

以上就是SparkSQL中DataFrame与DataSet如何使用,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯