文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

利用人工智能对文本内容进行自动摘要

2024-11-29 23:53

关注

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

随着互联网上各种 UGC 越来越多,各种原创性的长文本内容也不断地涌现出来。例如,在人工智能领域的三大顶会之一的  ICML,许多论文的长度都达到了二三十页。因此,如何快速的从长文本中提取出有用的信息,成为困扰许多包括科研人员在内的互联网网民的难题。

在 2012 年结束的人工智能领域顶会 AAAI 2012 上,来自中国浙江大学的研究团队,发表了一篇题为 Document Summarization Based on Data Reconstruction 的论文。该篇论文提出了 DSDR 算法,描述了如何利用贪心算法进行文本摘要提取的方法。论文下载地址在这里:Document Summarization Based on Data Reconstruction (nju.edu.cn)。下面我们介绍一下他们的方法。

所谓的文本自动摘要问题,本质上就是从原始的长文本中抽取一个文本的子集合,使得利用这个子集合的线性组合能尽可能的恢复出原始文本。我们按照如下方式定义文本自动摘要问题:

其中, f 是线性组合摘要句子之后的转换函数。X 是摘要生成的句子,a 是线性组合的系数,而  v 是原始文本,也就是输入数据。

首先,f 可以是线性组合,也就是:

因此,文本自动摘要问题转换成为了下述问题:

上述损失函数公式,等价于下面的公式:

利用贪心算法,我们设计了如下损失函数:

整个算法的伪代码流程如下所示:

在上面介绍的算法中,线性组合的系数 a 有可能是负数,为了保证 a 非负,我们重构了算法的损失函数:

经过重新设计之后,算法的伪代码如下:

通过对比实验,我们发现新设计的算法,取得了优异的实验结果:

文本自动摘要,对于阅读长篇幅的文本,比如博士毕业论文、咨询报告、审计报告等内容,非常有帮助。对于赶时间的当代人来说,文本自动摘要无疑是随身办公的文书利器。希望通过本文,广大的互联网从业者能够有所收获。

作者介绍

汪昊,前 Funplus 人工智能实验室负责人。曾在 ThoughtWorks, 豆瓣,百度,新浪,网易等公司有超过 13 年的技术研发和技术高管经验。先后在科技公司上线过 10 余款成功的商业产品。担任过创业公司的 CTO和技术副总裁。精通数据挖掘、计算机图形学和数字博物馆领域的技术、技术管理和技术变现等内容。在国际学术会议和期刊如  IEEE TVCG 和  IEEE / ACM ASONAM 上发表论文 39 篇,获得最佳论文奖 1 次(IEEE SMI 2008)和最佳论文报告奖 4 次(ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024)。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

来源:51CTO内容精选内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯