文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

基于DF的Tokenizer分词是怎么样的

2023-06-19 11:04

关注

这篇文章给大家介绍基于DF的Tokenizer分词是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

Tokenizer分词

进行文本分析前,对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基于RDD和基于DataFrame的库,由于基于RDD的库在Spark2.0以后都处于维护状态,我们这里讲的分词就是基于Spark的Dataframe的。主要是讲解两个类Tokenizer和RegexTokenizer的使用。

1 首先准备数据

导包

import org.apache.spark.ml.feature.{RegexTokenizer, Tokenizer}
import org.apache.spark.sql.functions._

准数据

val sentenceDataFrame = spark.createDataFrame(Seq(
 (0, "Hi I heard about Spark"),
 (1, "I wish Java could use case classes"),
 (2, "Logistic,regression,models,are,neat")
)).toDF("id", "sentence")

2 Tokenizer

Tokenizer负责读取文档或者句子,将其分解为单词。声明一个变量

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")

自定义函数来获取每列单词数目

val countTokens = udf { (words: Seq[String]) => words.length }

调用转换函数

val tokenized = tokenizer.transform(sentenceDataFrame)
tokenized.select("sentence", "words").withColumn("tokens", countTokens(col("words"))).show(false)

基于DF的Tokenizer分词是怎么样的

3 RegexTokenizer

RegexTokenizer允许基于正则的方式进行文档切分成单词组。默认情况下,使用参数“pattern”( regex, default: "\s+")作为分隔符来分割输入文本。或者,用户可以将参数“gaps”设置为false,指示正则表达式“pattern”表示“tokens”,而不是分割间隙,并查找所有匹配事件作为切分后的结果。

val regexTokenizer = new RegexTokenizer().setInputCol("sentence").setOutputCol("words").setPattern("\W")
// 也可换为 .setPattern("\w+").setGaps(false)

开始转换并查看执行结果

val regexTokenized = regexTokenizer.transform(sentenceDataFrame)
regexTokenized.select("sentence", "words").withColumn("tokens", countTokens(col("words"))).show(false)

基于DF的Tokenizer分词是怎么样的

关于基于DF的Tokenizer分词是怎么样的就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯