文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

IDEA如何开发配置SparkSQL

2023-06-20 20:46

关注

这篇文章将为大家详细讲解有关IDEA如何开发配置SparkSQL,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

1.添加依赖

在idea项目的pom.xml中添加依赖。

<!--spark sql依赖,注意版本号--><dependency>    <groupId>org.apache.spark</groupId>    <artifactId>spark-sql_2.12</artifactId>    <version>3.0.0</version></dependency>

2.案例代码

package com.zf.bigdata.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object Spark01_SparkSql_Basic {    def main(args: Array[String]): Unit = {        //创建上下文环境配置对象        val sparkConf = new SparkConf().setMaster("local[*]").setAppName("sparkSql")        //创建 SparkSession 对象        val spark = SparkSession.builder().config(sparkConf).getOrCreate()        // DataFrame        val df: DataFrame = spark.read.json("datas/user.json")        //df.show()        // DataFrame => Sql        //df.createOrReplaceTempView("user")        //spark.sql("select * from user").show()        //spark.sql("select age from user").show()        //spark.sql("select avg(age) from user").show()        //DataFrame => Dsl        //如果涉及到转换操作,转换需要引入隐式转换规则,否则无法转换,比如使用$提取数据的值        //spark 不是包名,是上下文环境对象名        import spark.implicits._        //df.select("age","username").show()        //df.select($"age"+1).show()        //df.select('age+1).show()        // DataSet        //val seq = Seq(1,2,3,4)        //val ds: Dataset[Int] = seq.toDS()        // ds.show()        // RDD <=> DataFrame        val rdd = spark.sparkContext.makeRDD(List((1,"张三",10),(2,"李四",20)))        val df1: DataFrame = rdd.toDF("id", "name", "age")        val rdd1: RDD[Row] = df1.rdd        // DataFrame <=> DataSet        val ds: Dataset[User] = df1.as[User]        val df2: DataFrame = ds.toDF()        // RDD <=> DataSet        val ds1: Dataset[User] = rdd.map {            case (id, name, age) => {                User(id, name = name, age = age)            }        }.toDS()        val rdd2: RDD[User] = ds1.rdd        spark.stop()    }    case class User(id:Int,name:String,age:Int)}

PS:下面看下在IDEA中开发Spark SQL程序

IDEA 中程序的打包和运行方式都和 SparkCore 类似,Maven 依赖中需要添加新的依赖项:

<dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.1.1</version></dependency>

一、指定Schema格式

import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types.StructTypeimport org.apache.spark.sql.types.StructFieldimport org.apache.spark.sql.types.IntegerTypeimport org.apache.spark.sql.types.StringTypeimport org.apache.spark.sql.Rowobject Demo1 {  def main(args: Array[String]): Unit = {    //使用Spark Session 创建表    val spark = SparkSession.builder().master("local").appName("UnderstandSparkSession").getOrCreate()    //从指定地址创建RDD    val personRDD = spark.sparkContext.textFile("D:\\tmp_files\\student.txt").map(_.split("\t"))    //通过StructType声明Schema    val schema = StructType(      List(        StructField("id", IntegerType),        StructField("name", StringType),        StructField("age", IntegerType)))    //把RDD映射到rowRDD    val rowRDD = personRDD.map(p=>Row(p(0).toInt,p(1),p(2).toInt))    val personDF = spark.createDataFrame(rowRDD, schema)    //注册表    personDF.createOrReplaceTempView("t_person")    //执行SQL    val df = spark.sql("select * from t_person order by age desc limit 4")    df.show()    spark.stop()  }}

二、使用case class

import org.apache.spark.sql.SparkSession//使用case classobject Demo2 {  def main(args: Array[String]): Unit = {    //创建SparkSession    val spark = SparkSession.builder().master("local").appName("CaseClassDemo").getOrCreate()    //从指定的文件中读取数据,生成对应的RDD    val lineRDD = spark.sparkContext.textFile("D:\\tmp_files\\student.txt").map(_.split("\t"))    //将RDD和case class 关联    val studentRDD = lineRDD.map( x => Student(x(0).toInt,x(1),x(2).toInt))    //生成 DataFrame,通过RDD 生成DF,导入隐式转换    import spark.sqlContext.implicits._    val studentDF = studentRDD.toDF    //注册表 视图    studentDF.createOrReplaceTempView("student")    //执行SQL    spark.sql("select * from student").show()    spark.stop()  }}//case class 一定放在外面case class Student(stuID:Int,stuName:String,stuAge:Int)

三、把数据保存到数据库

import org.apache.spark.sql.types.IntegerTypeimport org.apache.spark.sql.types.StringTypeimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types.StructTypeimport org.apache.spark.sql.types.StructFieldimport org.apache.spark.sql.Rowimport java.util.Propertiesobject Demo3 {  def main(args: Array[String]): Unit = {    //使用Spark Session 创建表    val spark = SparkSession.builder().master("local").appName("UnderstandSparkSession").getOrCreate()    //从指定地址创建RDD    val personRDD = spark.sparkContext.textFile("D:\\tmp_files\\student.txt").map(_.split("\t"))    //通过StructType声明Schema    val schema = StructType(      List(        StructField("id", IntegerType),        StructField("name", StringType),        StructField("age", IntegerType)))    //把RDD映射到rowRDD    val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1), p(2).toInt))    val personDF = spark.createDataFrame(rowRDD, schema)    //注册表    personDF.createOrReplaceTempView("person")    //执行SQL    val df = spark.sql("select * from person ")    //查看SqL内容    //df.show()    //将结果保存到mysql中    val props = new Properties()    props.setProperty("user", "root")    props.setProperty("password", "123456")    props.setProperty("driver", "com.mysql.jdbc.Driver")    df.write.mode("overwrite").jdbc("jdbc:mysql://localhost:3306/company?serverTimezone=UTC&characterEncoding=utf-8", "student", props)    spark.close()  }}

关于“IDEA如何开发配置SparkSQL”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯