文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

基于预训练语言模型的行业搜索的应用和研究

2024-11-30 20:44

关注

一、行业搜索的背景

1、达摩院自然语言智能大图


上图是达摩院自然语言处理智能的技术框图,从下到上包含:

2、行业搜索本质


面向产业和消费互联网的搜索本质都是一样的:用户有信息获取需求,同时有信息资源库,通过搜索引擎把两者桥接起来。

以电商场景来举例说明。比如用户在电商里面搜索 aj1 北卡蓝新款球鞋。为了更好地理解这样一个用户的 query,需要进行一系列任务:

3、行业搜索链路


如果按搜索的范式来分,一般分为 sparse retrieval 及 dense retrieval。

一般将搜索做这样一个链路性的划分:召回、排序(粗排、精排、重排)。


召回阶段:

从左到右,模型复杂度、效果精度变高。从右到左,处理 Doc 数变多。以淘宝电商为例,比如召回(几十亿),初排(几十万),到精排(几百、上千),到重排(几十)量级。

搜索生产链路是检索效果跟工程效率 trade-off 的系统。随着算力的增长,复杂模型开始往前置换。比如说精排的模型,现在慢慢会下沉到粗排、甚至召回这个阶段。

搜索效果评估:

4、消费互联网和产业互联网的搜索

搜索在不同行业场景里区别是很大的,在此把它分为消费互联网搜索与产业互联网搜索:

二、相关技术研究

搜索是跟系统框架紧密耦合的:包括离线数据,搜索服务框架(绿色部分),搜索技术算法体系(蓝色部分),其底座是 Alicemind 预训练语言模型体系,同样会汇聚做文档分析、query 理解、相关性等。

1、AliceMind 体系

AliceMind 是达摩院构建的层次化预训练语言模型体系。包含了通用预训练模型,多语言、多模态、对话等,是 NLP 所有任务的底座。

2、分词

搜索的分词(原子能力),决定了检索索引粒度,同时也与后续相关性、BM25 粒度有关。针对 task specific 任务,如果去定制一些预训练,能比通用的预训练效果更好。比如最近研究希望在原生 BERT 预训练任务上增加无监督的统计信息的任务,比如统计字词、Gram 粒度、或者边界熵,然后以 mse-loss 增加到预训练。在 CWS/POS、NER上(右图),的诸多任务都达到 SOTA。

另一个研究是跨领域。每次需要标数据、构建监督任务的成本很高,所以需构建跨领域无监督分词的机制。右下角的表格为例,电商分词相比开源的分词质量有明显改善,这套方法也发布到 ACL2020。

3、命名实体识别


搜索命名实体识别主要是对 query 、Doc 进行结构化的理解,识别出关键短语及类型。同时搜索知识图谱的构建也依赖 NER 功能。

搜索 NER 也面临一些挑战。主要是比如 query 常常是比较短的,上下文不足。比如说电商里面 query 实体的歧义性很高,知识性很强。所以这几年在 NER 核心的优化思路,就是通过上下文或者引入知识的方式来增强 NER 的表征。

在 2020年、2021年做了隐式增强的工作 combo embedding。把已有 word extractor 或者 GLUE 的表征动态融合,能搭载在很多业务任务上面达到 SOTA。

2021年,研发基于显式的检索增强,对一条文本会通过搜索引擎得到增强的上下文,融合到 transformer结构。这个工作发表在 ACL 2021 上了。

基于这个工作,我们参加了 SemEval 2022 多语言 NER评测拿了 10 项冠军,以及 best system paper 。


检索增强:输入句子本身之外,检索得到额外 context 并 concat 到输入,结合 KL 的 loss 来帮助学习。在很多开源数据集拿到 SOTA。

4、自适应多任务训练

BERT 本身效果是很好的,但实际生产很少有 GPU 集群,每个任务都要去做 inference性能代价很大。我们思考能否只做一次 inference,在 encoder 之后每个任务自己再做适配,就能得到比较好的效果。

一个直观的方法就是通过 meta-task 的框架纳入 NLP query 分析任务。但传统的 meta-task 是均匀采样的分布。我们提出了 MOMETAS,一个自适应基于元学习的方法,来自适应不同任务的采样。在多个任务去学习的过程中,我们会阶段性用 validation data 做测试看不同任务学习的效果。reward 反过来指导前面训练的采样。(下方表格)在很多任务上结合这个机制,相比 UB(均匀分布)有不少提升。

把上述机制应用在搜索很多行业的场景里去,带来的收益是仅通过一次 BERT 的编码并存储,在很多的下游任务直接复用,能大幅提升性能。

5、搜索召回预训练语言模型

深度检索,无外乎是双塔或单塔,通用的训练范式是有监督信号以及预训练模型,进行 finetune 获得 embedding,对 query 和 doc 进行表征。近期的优化路线主要是数据增强或难样本挖掘,另外是优化预训练语言模型。原生 BERT 不是特别适合搜索的文本表示,所以有针对搜索文本表示的预训练语言模型。其他优化是在于做 multi-view 文本表示,以及特别的 loss 设计。

相比原生 BERT 的随机采样,我们结合搜索词权重提升词权重比较高的词来提升采样概率,学习到的表征更适合搜索召回。除此之外,增加 sentence level 对比学习。结合这两个机制,提出了 ROM 的预训练语言模型。

在 MS MARCO 做实验,对比先前做法能够达到最好的效果。在实际的场景搜索任务中,也能带来较大的提升。同时该模型也参与了 MS 刷榜。

6、HLATR 重排模型

除了 ROM 这个召回阶段之外,在精排、重排阶段,提出了一套 list aware 的 Transformer reranking,即将精排很多分类器的结果通过 Transformer 有机的融合在一起,有比较大的提升。

结合 ROM 和 HLATR 两个方案,3 月份至今(7 月份)仍旧是 SOTA 结果。

三、行业搜索应用

1、地址分析产品

达摩院研发的地址分析产品,背景是各行各业有很多通讯地址。中文的通讯地址有很多特点,比如口语化表达有很多缺省。同时地址本身是人事实物,是客观世界很多实体桥接的一个重要实体单位。所以基于此建立了一套地址知识图谱,提供解析、补齐、搜索、地址分析。

这是产品的技术框图。从下到上包含了地址知识图谱的构建,以及地址预训练语言模型,包括基于搜索引擎的框架串接整个链路。上述提到的基准能力,以 API 的方式提供出来包装成行业方案。

这套技术里面比较重要的一个点是地理语义的预训练语言模型。一个地址在文本表示会是字符串,其实在空间里面它往往是表征成经纬度,在地图中还有对应的图片。所以这三种模态的信息是把它有机融合成一个多模态的地理语义的语言模型,以此来支持在定址里的任务。

上述提到需要做地址相关的很多基础能力,比如分词、纠错、结构化等分析。

最核心的链路是将地理预训练语言模型、地址基础任务、引发搜索引擎的方式将它们桥接起来。比如说搜索浙一医院,可能会对它去做结构化、同义词纠错、term weighting 做向量化、Geohash 的预测。基于分析结果做召回。这个链路是标准的搜索链路,进行文本召回、拼音召回、向量召回,还增加地理召回。召回之后是多阶段的排序,包括多粒度的 feature 融合。

地址搜索体系直观的应用,就是填地址后 suggestion 场景,或者高德地图里面去做搜索,需要把它映射到空间一个点位上。

接下来介绍两个比较行业化的应用方案。第一个是新零售 Family ID,核心诉求是维护一套客户的管理系统,然而各个系统用户信息没有打通,无法实现有效的整合。

比如品牌厂商卖了一个空调,家人由于购买、安装、维修而登记了各种地址、手机号,但对应的实际上是同一个地址。建立的地址搜索归一技术,把不同表示的地址进行归一,生成指纹,将不同用户 ID 聚合到 Family 概念中。


通过家庭聚合的概念,可以做到更好的渗透分析、广告投放触达等新零售下的营销活动。

另外一种应用场景,是 119、129、应急等智能接警应用。因为涉及到老百姓的人身财产安全,所以分秒必争。希望结合语音识别、文本语义理解技术把这个效率提升。

(左边例子)场景有很多特点,比如 ASR 转写的错别字、不流畅、口语化等问题。目标是希望基于自动语音转写分析推断报警地点。


我们提出了一整套系统方案,包括对话理解的口语顺滑纠错、意图识别,以及结合一套搜索从召回粗排精排的机制来最终实现地址推荐。链路已经比较成熟,在中国上百个城市的消防系统落地;消防从报警对话识别出具体的地点,结合推荐、匹配、地址围栏判断具体地点,对应出警。

2、教育拍照搜题

接下来介绍教育行业的拍照收集业务,在 To C、面向老师端也有不少需求。

拍照搜题有几个特点,本身有增量更新的题库,用户群体较大。另外,不同学科、年龄段对应的领域知识性很强。同时是一个多模态的算法,从 OCR 到后续语义理解、搜索等一套链路。

近几年针对拍照收集构建了一整套从算法到系统的链路。

比如,在手机拍照以及 OCR 识别后,会进行拼写纠错、学科预测、分词、词权重等一系列工作,帮助做到检索。

由于 OCR 对英文识别没有空格,训练了一套 K12 英文的预训练算法模型,进行英文的切分。

同时,学科、题目类型都是未知的,需要做一个提前预测。使用多模态,结合图片和文本进行意图理解。

拍照搜题跟普通的用户搜索不太一样,用户搜索往往 query 是比较短,拍照搜题往往是一道完整的题目。题目里面很多词是不重要的,需要做词权重分析,丢弃不重要的词或者排序予以降权。

在拍照搜题场景中优化效果最明显的是向量召回。性能上的要求不太能用 OR 的召回机制,需要用 AND 逻辑,对应特点是召回比较少。去提升 recall 的话,需要做 term weighting、纠错等较冗余的模块。(右图)通过文本加向量的多路召回效果,超过纯 or 逻辑,在 latency 降低 10 倍。

拍照搜索的链路包括了图像向量召回、公式召回、个性化召回。

提供两个例子。第一个是纯文本的 OCR 结果,(左列)旧结果是基于 ES,简单的 OR 召回,加上 BM25 的结果,(右列)经过多路召回以及相关性召回的链路有较大提升。

第二个是拍照含有图形,多路中是必须结合图片召回。

3、电力知识库统一搜索


在企业搜索中有很多半结构化和非结构化数据,提供统一搜索,帮助企业整合数据资源。不仅在电力,其他行业也有类似需求。这里的搜索不再是狭义的搜索,还包含了对文档的预处理文档的AI和知识图谱的构建,还包括后续桥接问答的能力。以上是在电力知识库里,去做一套制度标准文本,从结构化到检索,到应用端的示意图。

来源:DataFunTalk内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯