文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

最大匹配分词算法怎么在Java项目中实现

2023-05-31 03:47

关注

最大匹配分词算法怎么在Java项目中实现?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

全文检索有两个重要的过程:

1分词

2倒排索引

我们先看分词算法

目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,P(AB)表示AB相邻出现的概率,P(A)表示A在这篇文章中的频度,P(B)表示B在这篇文章中的频度。用概率分词的好 处是不需要借助词典的帮助,坏处是算法比较麻烦,效率不高,也存在一定的出错率。

另外的一个方向是使用词典分词。就是事先为程序准备一个词典,然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。

以 “我是一个坏人” 为例,并最大词长为3,词库包含有 我、是、一、个、一个、坏人、大坏人

正向的顺序为

我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===>得到一个词
一个坏
一个===> 得到一个词
坏人===>得到一个词

结果 我、是、一个、坏人

反向算法

个坏人
坏人==> 坏人
是一个
一个==> 一个
我是
是==> 是
我==> 我

结果 我、是、一个、坏人

java代码如下

package data;import java.util.Arrays;import java.util.HashSet;import java.util.Set;public class SplitString { private Set<String> set = new HashSet<String>(); private int positiveOver = 0; private int reverseOver = 0;  public String[] positiveSplit(String str, int maxSize) {  int tem = 0;  int length = str.length();  String[] ss = new String[length];  char[] cc = str.toCharArray();  for (int i = 0; i < length; i++) {   positiveOver = 0;   String sb = this.toStr(cc, i, maxSize);   ss[tem++] = sb;   i = i + positiveOver;  }  String[] ss2 = new String[tem];  System.arraycopy(ss, 0, ss2, 0, tem);  return ss2; }  public void addWord(String[] words) {  for (String st : words) {   this.set.add(st);  } }  public String[] reverseSplit(String str, int num) {  int tem = 0;  int length = str.length();  String[] ss = new String[length];  char[] cc = str.toCharArray();  for (int i = str.length() - 1; i > -1; i--) {   reverseOver = 0;   String sb = this.toStr2(cc, i, num);   tem++;   ss[--length] = sb;   i = i - reverseOver;  }  String[] ss2 = new String[tem];  System.arraycopy(ss, str.length() - tem, ss2, 0, tem);  return ss2; } private String toStr(char[] cs, int start, int num) {  int num2 = num;  out: for (int j = 0; j < num; j++) {   StringBuffer sb = new StringBuffer();   for (int i = 0; i < num2; i++) {    if (start + i < cs.length) {     sb.append(cs[start + i]);    } else {     num2--;     j--;     continue out;    }   }   if (set.contains(sb.toString())) {    positiveOver = num2 - 1;    return sb.toString();   }   num2--;  }  return String.valueOf(cs[start]); } private String toStr2(char[] cs, int start, int num) {  int num2 = num;  for (int j = 0; j < num; j++) {   StringBuffer sb = new StringBuffer();   for (int i = 0; i < num2; i++) {    int index = start - num2 + i + 1;    if (index > -1) {     sb.append(cs[index]);    } else {     num2--;    }   }   if (set.contains(sb.toString())) {    reverseOver = num2 - 1;    return sb.toString();   }   num2--;  }  return String.valueOf(cs[start]); } public static void main(String[] args) {  String[] words = new String[] { "我们", "我们五人", "五人一组", "一组" };  SplitString ss = new SplitString();    ss.addWord(words);  String st = "我们五人一组";  System.out.println("编程网测试结果:");  System.out.println("要分词的句子:" + st);    String[] ss2 = ss.reverseSplit(st, 4);  String[] ss1 = ss.positiveSplit(st, 4);  System.out.println("正向最大匹配分词算法分词结果:" + Arrays.toString(ss1));  System.out.println("逆向最大匹配分词算法分词结果:" + Arrays.toString(ss2)); }}

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 资料下载
  • 历年真题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯