SparkSQL中DataFrame与DataSet如何使用-编程学习网

本篇文章给大家分享的是有关SparkSQL中DataFrame与DataSet如何使用，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

指定列名添加Schema

通过StrucType指定Schema

编写样例类，利用反射机制推断Schema

1.1.1指定列名添加Schema

//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//代码// 1.创建SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()// 2.使用spark 获取sparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext 读取文件并按照空格切分 返回RDD    val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将RDD 转换为DataFrame 指定元数据信息    val dataFrame = rowRDD.toDF("id","name","age")//6.数据展示    dataFrame.show()

1.1.2StructType指定Schema

//导包import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}//编写代码//1.实例SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.根据SparkSession获取SparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext读取文件并按照空开切分并返回元组    val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.使用StructType 添加元数据信息    val schema = StructType(List(      StructField("id", IntegerType, true),      StructField("name", StringType, true),      StructField("age", IntegerType, true)    ))//6.将数据与元数据进行拼接 返回一个DataFrame    val dataDF = spark.createDataFrame(rowRDD,schema)//7.数据展示    dataDF.show()

1.1.3反射推断Schema

//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//定义单例对象  case class Person(Id:Int,name:String,age:Int)//编写代码//1.实例sparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.通过sparkSession获取sparkContext 上下文对象    val sc = spark.sparkContext//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中    val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将rowRDD转换为dataFrame    val dataFrame = rowRDD.toDF()    //6.数据展示    dataFrame.show()

以上就是SparkSQL中DataFrame与DataSet如何使用，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

文章详情

SparkSQL中DataFrame与DataSet如何使用

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

1.1.1指定列名添加Schema

1.1.2StructType指定Schema

1.1.3反射推断Schema

软考中级精品资料免费领

相关文章

猜你喜欢

SparkSQL中DataFrame与DataSet如何使用

SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

Dataset中SQLAlchemy如何使用

如何在Python中使用DataFrame

如何在Pytorch中使用Dataset和DataLoader读取数据

如何使用pandas中DataFrame检测重复值

如何使用dataset和实现图片延时加载

k8s中job与cronjob如何使用

Javascript中eval与with如何使用

location中assign与protocol如何使用

MongoDB 中如何使用Limit与Skip

SQLServer中ISNULL与NULLIF如何使用

Android中Handler与Message如何使用

JS中如何使用async与await

axios中如何使用GET与POST

Guava中ListenableFuture与RateLimiter如何使用

HttpSessionListener与Filter如何在Jetty9中使用

JSONObject与JSONArray如何在Java中使用

linux中如何安装与使用axel

vue3中的ref与reactive如何使用