文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

AI一眼识别这是什么鸟,「我们来找茬」十级选手诞生

2024-12-03 00:34

关注

AWSL,鹦鹉鹦鹉,傻傻分不清楚。

结果,AI一顿操作猛如虎,进行了判断:左边的是桃面牡丹鹦鹉,右边的是国家保护动物费氏牡丹鹦鹉,二者区别仅在于喙的颜色以及白色眼圈。

小鸟并不孤单,猫猫狗狗和花花草草也在被“找茬”。最近,浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展,利用RAMS-Trans相关技术先后在公开数据集CUB(鸟类识别)、Standford Dogs(狗类识别)、iNaturalist(动植物识别)的识别上准确率达到91.3%、68.5%、92.4%的行业最优效果,研究成果被多媒体国际顶会ACM MM 2021 收录。

论文链接:https://arxiv.org/pdf/2107.08192.pdf

怎么“找茬”

细粒度图像识别是计算机视觉领域的一个经典问题,属于图像分类任务的细分支任务,难点主要在于类别之间的差异较细微,难以区分。举几个看起来简单实际并不简单的例子:

以上都是松鸦,搞起区别对待并不容易,最右那只松鸦因为颜色完全不同暂且可以退出比赛行列,左边两只“小朋友”就要考验AI对图片细节的把控,俗称“考眼力”了。

AI的“眼力”可不同于人类的“眼力”。

在细粒度图像识别领域,区域注意力的定位和放大是一个重要因素,基于卷积神经网络(CNN)的方法对此进行了大量探索。然而,CNN的感受野有限,且缺乏全局依赖关系的建模能力。最近视觉Transformer(ViT)在计算机视觉领域取得了非常多的研究进展。研究者认为,与CNN相比,图像序列化是一种全新的方式。

浙江大学和阿里安全的研究者起初引入ViT中的自注意力机制,提取图像中的长距离依赖关系。然而,ViT的感受野大小相对固定,对图像中的每个patch的关注程度没有产生区分,对细粒度图像识别带来了性能的局限。

也就是说,这种方法并不能让AI找准“重点”。

为了学习局部判别性的区域注意力,研究者使用注意力权重的强度来衡量对应于原始图像的patch重要性,提出了多尺度循环注意力的Transformer(RAMS-Trans),它利用Transformer的自注意力机制,以多尺度的方式循环地学习判别性区域注意力。

“我们方法的核心是动态patch建议模块(DPPM)引导区域放大,以完成多尺度图像patch块的集成。DPPM从全局图像开始,迭代放大区域注意力,以每个尺度上产生的注意力权重的强度为指标,从全局到局部生成新的patch块。”阿里安全图灵实验室算法专家炫谦介绍。

具体来说,研究者首先提取ViT每层的自注意力机制,并且进行归一化,然后采取累乘的方式对自注意力整合。

然后,研究者得到了整合后的自注意力均值分布矩阵,由于细粒度图像识别任务的关键因素在于局部注意力,往往存在于图像的局部区域,如鸟的尾部、喙和蛙类的头部等,因此研究者通过设定阈值的方式来“过滤”不需要的部位,增强对局部判别性区域的识别能力。

最后,研究者通过插值算法将选定的patch块放大到原图像的尺寸,通过共享参数的模型,重新进行训练,整体结构对应于文章所提的多尺度循环机制。

RAMS只需要ViT本身附带的注意力权重,可以很容易地进行端到端的训练。广泛的实验表明,除了高效的CNN模型外,RAMS-Trans的表现比同期进行的工作更好,分别在CUB-200-2011、Stanford Dogs、iNaturalist2017获得SOTA。

同时,研究者在三个数据集合上可视化了Focus的区域,在不同种类动植物的细粒度判别时,RAMS可以聚焦到类别的独特特征区域,从而帮助细粒度分类。

可用于内容治理和知产保护

今年5月,国家林业和草原局下发《关于妥善解决人工繁育鹦鹉有关问题的函》,要求河南省林业局对包括费氏牡丹鹦鹉在内的多种人工养殖鹦鹉进行标识管理试点,对符合条件的养殖户尽快核发管理证件,同时,对合法人工繁育来源、依法允许出售的鹦鹉,停止执行禁止交易措施,在政府规定的场所进行销售活动。原来,1月初,河南商丘近1000家养殖户因不了解费氏牡丹鹦鹉属于国家保护动物,直到外地公安部门多次来商丘调查,他们才后知后觉。“鹦鹉案”困境终于有了解法。

怎么才能避免因“不懂法”“不认识”而触碰野生动植物保护的红线?

“帮他们辨别,帮他们认识。”在淘宝、闲鱼等商品平台上,阿里安全风控的做法是,依靠通过人工智能对商家挂出商品进行初筛,再交给人工审核来精细判断处理,并对禁限售商品的搜索弹出科普引导。

一万多种受保护的动植物,每种又有繁杂的细分种类,对人来说,光记名字远远不够,必须结合实物图片和各种背景资料综合学习,比如鹦鹉里的牡丹鹦鹉(也叫爱情鸟),除了桃脸牡丹鹦鹉、虎皮鹦鹉等大部分都被纳入《华盛顿公约》附录二,个人不可随意饲养。其中的费氏牡丹鹦鹉属于保护物种,都是牡丹鹦鹉,费氏牡丹俗称“头类”,桃脸牡丹俗称“面类”。一般可以依靠眼圈和嘴的颜色进行区别,“头类”眼睛四周有一圈眼白,通常嘴偏红,而“面类”没有这些特征。

风控专家把市面上非法交易频繁的动植物作为重点研究,买百科全书,网上查阅相关科普资料,然后上专业网站和一些动物知识APP,向动物保护领域研究者请教,与算法人员一起打造算法模型。

浙江大学和阿里安全研发的细粒度图像识别技术就可用在上述场景。算法的下游是风控运营,对他们而言,在万能的橙色软件上“买(看)不到什么”是一种合法合规,也是构建健康网络环境的主动选择。当然,这个技术也可用于山寨商标的识别,区分正版与山寨商标,以及未成人年不良图片治理和恶心图治理等,如抽烟、酗酒、竖中指、赌博、密集恐惧等。

又到可怕的“我们来找茬”环节了,这也是炫谦等人给AI的一次测试,猜猜它找到正品logo了吗?

研究者介绍

胡云青:浙江大学计算机学院DMAC实验室博士在读,阿里安全图灵实验室实习生,师从浙江大学教授张寅,研究方向和感兴趣方向包括图像识别,目标检测和多模态等。在ACMMM、ACL等发表过多篇论文。

炫谦:在中国科学院大学获得硕士学位,阿里巴巴图灵实验室算法专家,主要负责图片内容安全业务,拥有多篇发明专利,并在NIPS、ACM MM、ICASSP等发表多篇论文。

张寅:浙江大学计算机科学与技术学院副教授,博士生导师,数字图书馆教育部工程研究中心副主任,中国工程科技知识中心建设总师团队成员,美国加州大学圣塔芭芭拉分校(UCSB)访问学者,浙江大学“求是青年学者”。

 

 

 

来源:机器之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯