文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token

2024-11-30 13:46

关注

号称“史上最强的开源大语言模型”出现了。

它叫Falcon(猎鹰),参数400亿,在1万亿高质量token上进行了训练。

最终性能超越650亿的LLaMA,以及MPT、Redpajama等现有所有开源模型

一举登顶HuggingFace OpenLLM全球榜单:

除了以上成绩,Falcon还可以只用到GPT-3 75%的训练预算,性能就显著超越GPT-3,且推理阶段的计算也只需GPT-3的1/5。

据悉,这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所(TII)

有意思的是,作为一个开源模型,TII在Falcon上推出了一个相当特别的授权许可证要求:

可以商业使用,但如果用它产生的收益超过了100万美元,就要被收取10%的授权费。

一时之间,争议满满。

史上最强开源LLM

据介绍,Falcon属于自回归解码器模型。

它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。

——Falcon宣称它“特别注重数据质量”,从公网上抓取内容构建好Falcon的初始预训练数据集后,再使用CommonCrawl转储,进行大量过滤(包括删除机器生成的文本和成人内容)并消除重复数据,最终得到一个由近5万亿个token组成的庞大预训练数据集。

为了扩大Falcon的能力,该数据集随后又加进了很多精选语料,包括研究论文和社交媒体对话等内容。

除了数据把关,作者还对Falcon的架构进行了优化以提升性能,但细节没有透露,相关论文将很快发布。

据悉,Falcon一共耗费两个月,在AWS的384个GPU上训练而成。

最终,Falcon一共包含4个版本:

开源许可证引争议

Falcon作为开源模型,已公开源代码和模型权重,可供研究和商业使用

这对业界来说是一个好消息,毕竟像Meta的羊驼家族都只能用于研究目的,且还得填表格申请才行,很是麻烦。

但Falcon还是引起了争议。

这主要是因为它那“超过100万美元的任何商业应用都要收10%的授权费”的许可证要求。

据悉,该许可证部分基于Apache License 2.0协议,该协议对商业应用友好,使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。

有不少网友认为,既然Falcon宣称开源,还要收费,就违背了Apache License Version 2.0的宗旨,不属于真正的开源。


并有人称这是一种“有损Apache软件基金会来之不易的名誉”的做法。

有网友已经跑到TII的官方账号下“讨要说法”:

你自己能解释一下这是如何符合“开源”的定义吗?

目前,官方并没有回复。

你认为这种做法究竟算不算开源呢?

来源:量子位内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯