文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

使用Pinyin4j怎么实现拼音分词

2023-05-30 17:11

关注

使用Pinyin4j怎么实现拼音分词?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

使用maven引入相关的jar

<dependency> <groupId>com.belerweb</groupId> <artifactId>pinyin4j</artifactId> <version>2.5.1</version></dependency>

创建Pinyin4jUtil

package com.os.core.util.solr;import net.sourceforge.pinyin4j.PinyinHelper;import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;import java.util.ArrayList;import java.util.Hashtable;import java.util.List;import java.util.Map;public class Pinyin4jUtil { public static void main(String[] args) {  String str = "测试";  String pinyin = Pinyin4jUtil.converterToSpell(str);  System.out.println(str + " pin yin :" + pinyin);  pinyin = Pinyin4jUtil.converterToFirstSpell(str);  System.out.println(str + " short pin yin :" + pinyin); }  public static String converterToFirstSpell(String chines) {  StringBuffer pinyinName = new StringBuffer();  char[] nameChar = chines.toCharArray();  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  for (int i = 0; i < nameChar.length; i++) {   if (nameChar[i] > 128) {    try {     // 取得当前汉字的所有全拼     String[] strs = PinyinHelper.toHanyuPinyinStringArray(       nameChar[i], defaultFormat);     if (strs != null) {      for (int j = 0; j < strs.length; j++) {       // 取首字母       pinyinName.append(strs[j].charAt(0));       if (j != strs.length - 1) {        pinyinName.append(",");       }      }     }     // else {     // pinyinName.append(nameChar[i]);     // }    } catch (BadHanyuPinyinOutputFormatCombination e) {     e.printStackTrace();    }   } else {    pinyinName.append(nameChar[i]);   }   pinyinName.append(" ");  }  // return pinyinName.toString();  return parseTheChineseByObject(discountTheChinese(pinyinName.toString())); }  public static String converterToSpell(String chines) {  StringBuffer pinyinName = new StringBuffer();  char[] nameChar = chines.toCharArray();  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  for (int i = 0; i < nameChar.length; i++) {   if (nameChar[i] > 128) {    try {     // 取得当前汉字的所有全拼     String[] strs = PinyinHelper.toHanyuPinyinStringArray(       nameChar[i], defaultFormat);     if (strs != null) {      for (int j = 0; j < strs.length; j++) {       pinyinName.append(strs[j]);       if (j != strs.length - 1) {        pinyinName.append(",");       }      }     }    } catch (BadHanyuPinyinOutputFormatCombination e) {     e.printStackTrace();    }   } else {    pinyinName.append(nameChar[i]);   }   pinyinName.append(" ");  }  // return pinyinName.toString();  return parseTheChineseByObject(discountTheChinese(pinyinName.toString())); }  private static List<Map<String, Integer>> discountTheChinese(String theStr) {  // 去除重复拼音后的拼音列表  List<Map<String, Integer>> mapList = new ArrayList<Map<String, Integer>>();  // 用于处理每个字的多音字,去掉重复  Map<String, Integer> onlyOne = null;  String[] firsts = theStr.split(" ");  // 读出每个汉字的拼音  for (String str : firsts) {   onlyOne = new Hashtable<String, Integer>();   String[] china = str.split(",");   // 多音字处理   for (String s : china) {    Integer count = onlyOne.get(s);    if (count == null) {     onlyOne.put(s, new Integer(1));    } else {     onlyOne.remove(s);     count++;     onlyOne.put(s, count);    }   }   mapList.add(onlyOne);  }  return mapList; }  private static String parseTheChineseByObject(   List<Map<String, Integer>> list) {  Map<String, Integer> first = null; // 用于统计每一次,集合组合数据  // 遍历每一组集合  for (int i = 0; i < list.size(); i++) {   // 每一组集合与上一次组合的Map   Map<String, Integer> temp = new Hashtable<String, Integer>();   // 第一次循环,first为空   if (first != null) {    // 取出上次组合与此次集合的字符,并保存    for (String s : first.keySet()) {     for (String s1 : list.get(i).keySet()) {      String str = s + s1;      temp.put(str, 1);     }    }    // 清理上一次组合数据    if (temp != null && temp.size() > 0) {     first.clear();    }   } else {    for (String s : list.get(i).keySet()) {     String str = s;     temp.put(str, 1);    }   }   // 保存组合数据以便下次循环使用   if (temp != null && temp.size() > 0) {    first = temp;   }  }  String returnStr = "";  if (first != null) {   // 遍历取出组合字符串   for (String str : first.keySet()) {    returnStr += (str + ",");   }  }  if (returnStr.length() > 0) {   returnStr = returnStr.substring(0, returnStr.length() - 1);  }  return returnStr; }}

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注编程网行业资讯频道,感谢您对编程网的支持。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯