文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何在spark集群环境下使用hanlp进行中文分词

2023-06-02 19:02

关注

这篇文章主要介绍“如何在spark集群环境下使用hanlp进行中文分词”,在日常操作中,相信很多人在如何在spark集群环境下使用hanlp进行中文分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何在spark集群环境下使用hanlp进行中文分词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

将下载的hanlp-portable-1.6.2.jar复制到集群spark/jar文件夹下面

启动spark集群

       spark/bin/spark-shell --executor-memory 6g  --driver-memory 1g --executor-cores 2 --num-executors 2 --master spark://master:7077 --jars ansj_seg-5.1.6.jar hanlp-portable-1.6.2.jar

3,执行如下指令:

    import com.hankcs.hanlp.tokenizer.StandardTokenizer

    val data = sc.textFile("hdfs://master:8020/clob.txt")

    val splits = data.filter(line => !line.contains("BODY")).map(line => line.replace("【","")).map(line => line.replace("】","")).map(line=>StandardTokenizer.segment(line.toString()))

     splits.first

提示结果没有序列化:

18/04/06 09:08:25 ERROR TaskSetManager: Task 0.0 in stage 0.0 (TID 0) had a not serializable result: com.hankcs.hanlp.seg.common.Term
Serialization stack:
        - object not serializable (class: com.hankcs.hanlp.seg.common.Term, value: 监/ng)
        - writeObject data (class: java.util.ArrayList)
        - object (class java.util.ArrayList, [监/ng, 所/u, 每日/r, 动态/n, 济南市/ns, 公安局/n, 监管/vn, 支队/n, 秘书处/n,  /w, 2012/m, 年/q, 9/m, 月/q, 11/m, 日/j, 情况/n, 统计/v, 今天/t, ,/w, 全市/n, 看守所/n, 新/a, 收押/v, 14/m, 人/n, ,/w, 出/v, 所/u, 14/m, 人/n, ,/w, 在押/v, 人员/n, 总数/n, 2596/m, 人/n, (/w, 其中/r, 包括/v, 死刑犯/n, 27/m, 人/n, ,/w, 死缓/j, 犯/v, 14/m, 人/n, ,/w, 无期徒刑/l, 犯/v, 8/m, 人/n, ,/w, 法/j, 轮功/nr, 人员/n, 1/m, 人/n, )/w, 。/w, 全市/n, 拘留所/n, 新/a, 收押/v, 47/m, 人/n, ,/w, 出/v, 所/u, 20/m, 人/n, ,/w, 在/p, 所/u, 人员/n, 总数/n, 213/m, 人/n, 。/w, 项目/n, 单位/n, 被/p, 监管/vn, 人员/n, 情况/n, 在押/v, 总数/n, 新/a, 收/v, 出/v, 所/u, 未决犯/n, 法/j, 轮功/nr, 重点/n, 人员/n, 病号/n, 市/n, 看守所/n, 164179144117873/m, 历城/ns, 看守所/n, 302502550143/m, 章丘/ns, 看守所/n, 24220227066/m, 长/a, 清/a, 看守所/n, 1050292050/m, 平/v, 阴/a, 看守所/n, 860169022/m, 济阳/ns, 看守所/n, 14401113091/m, 商/n, 河/n, 看守所/n, 760162020/m, 合计/v, 25961414962121685/m, 市/n, 拘留所/n, 1273315/m, 长/a, 清/a, 拘留所/n, 2420/m, 章丘/ns, 拘留所/n, 2332/m, 平/v, 阴/a, 拘留所/n, 1600/m, 济阳/ns, 拘留所/n, 2033/m, 商/n, 河/n, 拘留所/n, 1160/m, 合计/v, 2214720/m, 收/v, 教/v, 所/u, 30001/m])
        - element of array (index: 0)
        - array (class [Ljava.util.List;, size 1); not retrying

到此,关于“如何在spark集群环境下使用hanlp进行中文分词”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯