文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

用于提取数据的三个开源NLP工具

2024-11-30 10:40

关注

审校 | 重楼

开发人员和数据科学家使用生成式AI和大语言模型(LLM)来查询大量文档和非结构化数据。开源LLM包括Dolly 2.0EleutherAI PythiaMeta AI LLaMaStabilityLM等,它们都是尝试人工智能的起点,可以接受自然语言提示生成总结式响应。

Fluree首席执行官兼联合创始人Brian Platz说:“作为知识和信息的基本来源,文本很重要,但目前还没有任何端到端解决方案可以驾驭处理文本的复杂性。虽然大多数组织处理结构化或半结构化数据、放到集中式数据平台,但非结构化数据仍然被遗忘未充分利用起来

如果组织和团队没有试自然语言处理NLP功能,可能落后所在行业的竞争对手。2023年专家NLP调查报告发现77%的组织表示计划增加NLP方面的支出,54%的组织声称部署到生产环境的时间是衡量成功NLP项目的投资回报率首要指标。

NLP的用例

如果您大量非结构化数据和文本,那么一些最常见的业务需求包括如下:

时候,将NLP功能捆绑到平台或应用程序中是可取的。比如说LLM支持提问,AI搜索引擎支持搜索和推荐聊天机器人支持交互其他时候,使用NLP工具提取信息以及丰富非结构化文档和文本是最佳选择。

不妨看看开发人员和数据科学家如今使用三种流行的开源NLP工具,可用于针对非结构化文档执行发现操作,并开发生产就绪的NLP处理引擎。

1. 自然语言工具包

自然语言工具包NLTK2001年发布,是较悠久流行的NLP Python库之一。NLTK在GitHub上拥有超过1.18万颗星,列100多个经过训练的模型。

SPR的数据和分析主管Steven Devoe说:“我认为对于NLP来说,最重要的工具是自然语言工具包(NLTK),它采用了Apache 2.0许可证。在所有的数据科学项目中,处理和清理算法使用的数据耗用了大量的时间和精力,这在自然语言处理中尤如此。NLTK加这方面的许多工作,比如词干提取、词源化、标记、删除停止词以及跨多种书面语言嵌入词向量,从而使算法更容易解释文本。

NLTK的优点源于耐久性,它为刚接触NLP的开发人员提供了许多示例,比如初学者实践指南和这个更全面的概述。任何学习NLP技术的人都可能想先试一下这个库,因为它提供了简单的方法来尝试基本技术,比如标记化、词干提取和分块。

2.spaCy

spaCy是一个较新的库,2016年发布了版本1.0。spaCy支持72种语言,发布了性能基准,它在GitHub上积累的星数超过25000颗。

Domino数据实验室欧洲中东和非洲(EMEA)地区的数据科学主管Nikolay Manchev说:“spaCy是免费的开源Python库,提供了对大量文本进行高速自然语言处理的高级功能。使用spaCy,用户可以构建模型和生产应用程序,它们支持文档分析、聊天机器人功能和所有其他形式的文本分析。如今,spaCy框架是Python最流行的自然语言库之一,用于从文本中提取关键字、实体和知识等行业用例。

spaCy教程显示了NLTK类似的功能,比如命名实体识别和词性标注。一个优点是,spaCy返回文档对象并支持词向量,这可以为开发人员执行额外的NLP后数据处理和文本分析赋予更大的灵活性。

3.Spark NLP

如果您已经使用Apache Spark并配置了基础设施,那么Spark NLP可能是开始尝试自然语言处理的更便捷途径之一。Spark NLP有几个安装选项,包括AWS、Azure Databricks和Docker。

John Snow Labs的首席技术官David Talby说:“Spark NLP是一个广泛使用的开源自然语言处理库,它使企业能够以最高的精度从自由文本文档中提取信息和答案。因此企业可以提取只存在于临床记录中的相关健康信息,识别社交媒体上的仇恨言论或虚假新闻,或概述法律协议和财经新闻。”

Spark NLP的不同之处在于是适用于医疗、金融和法律领域的语言模型。这些商业产品配备了预先训练的模型,用于识别医疗领域的药物名称和剂量、金融实体识别(比如股票行情信息)以及公司名称和高管的法律知识图谱。

Talby表示,Spark NLP可以帮助组织尽量减少开发模型所需的前期训练。他说:“这个免费开源库附带超过11000个预训练模型,外加重用、训练、调优和轻松扩展模型的功能。”

试用NLP的最佳实践

我在职业生涯的早期有幸监督过开发几个使用NLP功能构建的SaaS产品第一个NLP是一个搜索报纸分类广告的SaaS平台,包括搜索汽车、工作和房地产。然后,我领导开发了用于从商业建筑文件包括建筑规格和蓝图中提取信息的NLP

在一个新领域开始入手NLP时,我的建议如下

您可能会发现用于发现和试文档的NLP工具将有助于定需求。然后,扩NLP技术的比较范围涵盖开源方案和商业方案,因为构建和支持生产就绪的NLP数据管道可能成本高昂。随着LLM日益备受关注,对NLP功能方面不足会导致落后于竞争对手幸运的是,您可以从本文介绍的其中一款开源工具入手,构建NLP数据管道以满足自己的预算和需求。

原文3 open source NLP tools for data extraction,作者:Isaac Sacolick

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯