文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

教AI开发软件:IBM开源数据集Project CodeNet,含有1400万个代码示例

2024-12-03 05:09

关注

蓝色巨人希望为基于AI的编程工具创建含有丰富训练资源的ImageNet。

IBM已组建了一个庞大的源代码库,用于教机器学习程序学习编程。

这个数据集名为Project CodeNet,含有1400万个代码示例,共5亿行代码,涉及的编程语言超过55种:从Java、C和Go到COBOL、Pascal和FORTRAN,不一而足。老实讲,其中四分之三以上的代码是用C ++和Python编写的。

这些源代码不是从生产级应用程序或开发中的应用程序获取的,而是从参赛者向在日本组办的两大编程竞赛:Aizu和AtCoder提交的软件作品收集而来的。在这些竞赛中,参赛者需要编写必要的代码,以便将一组特定的输入转换成一组所需的输出。大约一半的代码示例按预期的那样运行,其余被标记为是错误的解决方案、非构建(non-building)或有缺陷。

比如说,理想情况下,您将训练一个AI工具,可以识别出好的程序、拒绝坏的程序。700万个代码示例包括了输入和所需的输出。

IBM希望CodeNet仿效ImageNet(用于训练计算机视觉应用程序的图片和标签数据库),并成为教软件明白软件开发蓝图的领先数据集——即代码实际上外观如何、与其他代码相比如何。IBM希望CodeNet可以用于训练诸如此类的开发工具:可以搜索应用程序和库来源以查找所需的例程,可以将一种语言转换成另一种语言,或者识别错误或正确的实现机制。

IBM在本周召开Think线上大会时宣布了该项目,称:“IBM相信CodeNet项目将充当颇有价值的基准数据集,用于源码到源码的转换,并将遗留代码库转换成现代代码语言,从而帮助公司企业加快AI的应用。”

IBM和MIT-IBM Watson AI实验室团队联合开发了该数据集,撰写了一篇论文介绍相关工作,并将所有整理后的材料放在了该项目在GitHub的页面(https://github.com/IBM/Project_CodeNet)上。

“该数据集不仅在规模上很独特,在它有助于基准测试的编程任务的多样性上也很独特:从代码相似性和分类以获得代码推荐算法方面的进步,到一大批编程语言之间的代码转换,再到代码性能改进技术方面的进步,”研究人员在报告中这样总结道。

 

 

来源:云头条内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯