文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

帮视障人士“看见”图片 字节跳动最新视觉语言预训练模型入选ICML 2022

2024-12-13 22:15

关注

据了解,这个名为X-VLM 的模型在业内首次提出学习多粒度的视觉和语言对齐,能为图片生成更为精准的描述,比如更正确地识别物体、描述物体间的关系。

信息无障碍研究会发布的报告显示,超过90%的视障人士会使用智能手机了解外面的世界。此前,手机系统自带的读屏软件已经实现把屏幕上的文字念出来,帮助视障人士“读”新闻、“看”文章。可遇到文章中的图片,读屏软件往往无法识别,只能播报“图片”二字。

采用了X-VLM 模型,今日头条App可以自动识别图片,还能将它们“翻译”成通顺流畅的语句,并通过语音播报出来,助力视障人士解决读图难题。

值得一提的是,X-VLM可在模型规模和预训练数据有限的情况下实现高效训练。数据显示:216M参数量的X-VLM模型就能在图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成等广泛的多模态任务上获得十分优秀的表现。目前,X-VLM在字节跳动的真实应用场景上的表现已超过一些业界领先的最新模型。

近年来,人工智能在助推无障碍环境方面发挥了重要作用。利用技术持续改进无障碍与适老化体验是字节跳动在公益方面的重要方向。除了在抖音系产品中不断完善无障碍功能,字节跳动还通过面向企业用户的云服务平台火山引擎,以技术输出的方式,服务更广泛的社会群体。

论文:Multi-Grained Vision Language
Pre-Training: Aligning Texts with Visual Concepts(
https://arxiv.org/abs/2111.08276

代码:https://github.com/zengyan-97/X-VLM



阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯