在每年的开源产业大会上,中国信息通信研究院都会隆重宣布“OSCAR开源尖峰案例”奖项,旨在树立开源典范,更好地推动开源技术在中国市场的落地。2021年,该奖项分“开源人物”、“开源社区及开源项目”、“开源企业—开源运营与生态建设”、“开源企业—开源治理”、“开源创新(二次开发)”等五大领域。而在“开源社区及开源项目”领域中,通过云计算标准和开源推进委员会成员对来自众多知名企业的170多个优秀项目的层层评选,亚马逊云科技 DGL 在激烈的竞争中脱颖而出,成功荣获国家级认证认可,赢得奖项。
DGL(Deep Graph Library)是一款面向图结构数据的专用深度学习框架。于2018年12月在Neurips大会上宣布开源。开发团队最初主要来自NYU和NYU Shanghai,现由张峥教授带领的亚马逊云科技上海人工智能研究院主要开发,项目上线初就获得广泛关注和好评。
DGL是一项具有深远意义的开源项目,它易用性强,采用以“图”为核心的编程抽象,天然接近图算法的语义;具有高性能,使用算子融合等技术,相比同类系统能提速10倍甚至几十倍。借此,企业可以面向复杂的业务场景,提高语音分析、文字分析、时间序列分析等常规工作的效率和精准性;多平台支持,支持多款深度学习框架(PyTorch, MXNet, TensorFlow),用户可以基于此进行大规模图神经网络训练;海量巨图支持,支持多机多卡分布式训练,可以对十亿点规模的图做训练。DGL希望帮助开发者将图神经网络落地到具体的业务场景中,改善业务模式,创造更多价值。
与其同时DGL在学术圈具有广泛的影响力,基于DGL发表的学术论文有近400篇,包括图灵奖获得者Yann Lecun在内的诸多知名学者对项目给予高度评价。DGL在几乎所有数据挖掘顶级会议上(KDD,WWW,WSDM等)做过专场实操教学。仅仅在两年时间内,来自学界和业界外部项目贡献者已经增长至140多位。此外,基于DGL的软件生态也初具雏形,衍生出面向分子生物,知识图谱,自然语言处理,推荐系统等多款专用AI工具包。
DGL开源后,在项目维护和社区建设方面也面临着一些挑战并采取积极应对:
挑战一:图深度学习是一个全新的,快速演变的领域。
DGL团队一直积极收集开源社区的反馈,进行有效的向后迭代。并结合最新的科研成果,进行快速向前迭代。
挑战二:由于图结构数据的普适性,其应用分布非常广泛,领域性很强。
团队在社区运营上设置阶梯化的文档和教程,培养领域开发者。保持和学界、业界的沟通,从而建立共赢生态。
文档建设方面独创“文档汉诺塔”的管理方式
也正是项目的这些技术亮点和社区运营的优势使得DGL被信通院评为2021OSCAR开源尖峰案例的开源社区及开源项目。
未来,亚马逊云科技将持续创新,贡献更多的优秀开源项目同时更好的支持开源并与云计算技术进行集成与融合,将加速以开源为基础的机器学习、人工智能等众多领域技术在生产实践中的应用,为全球用户及企业提供更加成熟的成长契机。