文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

大概是最全的开源大模型LLM盘点了吧!

2024-11-29 23:27

关注

架构特点:

LLM主要基于Transformer架构,该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。Transformer通过自注意力机制(Self-Attention)来捕捉文本中的长距离依赖关系,无需像循环神经网络(RNN)那样逐词递归处理,从而实现了并行计算,大大提高了训练和推理速度。典型的LLM结构包括:

参数规模

LLM的“大型”体现在其巨大的参数量,通常在数十亿到数千亿之间。例如,GPT-3(Generative Pretrained Transformer 3)拥有约1750亿个参数,而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通义千问等,参数量可能更大。大规模参数使得模型能够学习到更丰富的语言规律和模式,提高其泛化能力和表达复杂语言结构的能力。

预训练与微调

LLM通常遵循“预训练-微调”的范式:

应用场景

LLM在实际中主要应用在以下场景:

笔者在这里对目前的开源大模型LLM进行了一个全面、系统的整理,与大家分享~

国外开源模型

模型链接

模型描述

OpenSora

高效复现类Sora视频生成的完全开源方案

GROK

3140亿参数的混合专家模型,迄今参数量最大的开源LLM

Gemma

谷歌商场开源模型2B,7B免费商用,开源第一易主了

Mixtral

Mistral AI的突破性大模型,超越GPT3.5,重新定义人工智能性能和多样性

Mistral7B

“欧洲OpenAI”的“最强7B开源模型”,全面超越13B的Llama2

LLama2

Open Meta带着可商用开源的羊驼2模型来了~

LLama

Meta开源指令微调LLM,规模70亿到650亿不等

WizardLM

微软新发布13B,登顶AlpacaEval开源模型Top3,使用ChatGPT对指令进行复杂度进化微调LLama2

Falcon

阿联酋技术研究所推出,3.5万亿token训练,性能直接碾压LLaMA2

Vicuna

Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型,提出了用GPT4来评测模型效果

OpenChat

80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机

Guanaco

LLama 7B基座,在alpaca52K数据上加入534K多语言指令数据微调

MPT

MosaicML开源的预训练+指令微调的新模型,可商用,支持84k tokens超长输入

RedPajama

RedPajama项目既开源预训练数据后开源3B,7B的预训练+指令微调模型

koala

使用alpaca、HC3等开源指令集+ShareGPT等ChatGPT数据微调llama,在榜单上排名较高

ChatLLaMA

基于RLHF微调了LLaMA

Alpaca

斯坦福开源的使用52k数据在7B的LLaMA上微调得到

Alpaca-lora

LORA微调的LLaMA

Dromedary

IBM self-aligned model with the LLaMA base

ColossalChat

HPC-AI Tech开源的Llama+RLHF微调

MiniGPT4

Vicuna+BLIP2 文本视觉融合

StackLLama

LLama使用Stackexchange数据+SFT+RL

Cerebras

Cerebras开源了1亿到130亿的7个模型,从预训练数据到参数全开源

Dolly-v2

可商用7b指令微调开源模型在GPT-J-6B上微调

OpenChatKit

openai研究员打造GPT-NoX-20B微调+6B审核模型过滤

MetaLM

微软开源的大规模自监督预训练模型

Amazon Titan

亚马逊在aws上增加自家大模型

OPT-IML

Meta复刻GPT3,up to 175B, 不过效果并不及GPT3

Bloom

BigScience出品,规模最大176B

BloomZ

BigScience出品, 基于Bloom微调

Galacia

和Bloom相似,更针对科研领域训练的模型

T0

BigScience出品,3B~11B的在T5进行指令微调的模型

EXLLama

Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight

LongChat

llama-13b使用condensing rotary embedding technique微调的长文本模型

MPT-30B

MosaicML开源的在8Ktoken上训练的大模型

国内开源模型

模型链接

模型描述

BayLing

中科院开源,性能媲美GPT-3.5,基于LLama7B/13B,增强的语言对齐的英语/中文大语言模型

GLM

清华发布的中英双语双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持在单台 A100(40G * 8)或V100(32G * 8)服务器上支持 130B 参数的推理任务。

XWin-LM

一款基于Llama2微调的语言模型,成功在斯坦福AlpacaEval上击败了GPT-4,成为新的榜首模型

XVERSE

元象科技自主研发的支持多语言的大语言模型(Large Language Model),参数规模为650亿,底座模型 XVERSE-65B

XVERSE-256K

最大支持 256K 的上下文窗口长度,约 25w 字的输入内容,可以协助进行文献总结、报告分析等任务

ChatGLM3

智谱AI训练的第三代大型语言模型,它不仅能理解和生成人类语言,还能执行代码、调用工具,并以markdown格式进行响应

ChatGLM2

具备强大的问答和对话功能,拥有最大32K上下文,并且在授权后可免费商用!

ChatGLM

清华开源的、支持中英双语的对话语言模型,使用了代码训练,指令微调和RLHF

Orion-14B-Base

具有140亿参数的多语种大模型,该模型在一个包含2.5万亿token的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。

Baichuan2

百川第二代也出第二个版本了,提供了7B/13B Base和chat的版本

Baichuan

百川智能开源7B大模型可商用免费

ziya2

基于Llama2训练的ziya2它终于训练完了

ziya

IDEA研究院在7B/13B llama上继续预训练+SFT+RM+PPO+HFTT+COHFT+RBRS

Qwen1.5-MoE-A2.7B

Qwen推出MOE版本,推理更快

Qwen1.5

通义千问升级1.5,支持32K上文

Qwen1-7B+14B+70B

阿里开源,可商用,通义千问7B,14B,70B Base和chat模型

InternLM2 7B+20B

商汤的书生模型2支持200K

Yuan-2.0

浪潮发布Yuan2.0 2B,51B,102B

YI-200K

元一智能开源超长200K的6B,34B模型

YI

元一智能开源34B,6B模型

DeepSeek-MOE

深度求索发布的DeepSeekMoE 16B Base和caht模型

DeepSeek

深度求索发布的7B,67B大模型

LLama2-chinese

没等太久中文预训练微调后的llama2它来了~

YuLan-chat2

高瓴人工智能基于Llama-2中英双语继续预训练+指令微调/对话微调

BlueLM

Vivo人工智能实验室开源大模型

zephyr-7B

HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型

Skywork

昆仑万维集团·天工团队开源13B大模型可商用

Chinese-LLaMA-Alpaca

哈工大中文指令微调的LLaMA

Moss

为复旦正名!开源了预训练,指令微调的全部数据和模型。可商用

InternLM

书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型

Aquila2

智源更新Aquila2模型系列包括全新34B

Aquila

智源开源7B大模型可商用免费

UltraLM系列

面壁智能开源UltraLM13B,奖励模型UltraRM,和批评模型UltraCM

PandaLLM

LLAMA2上中文wiki继续预训练+COIG指令微调

XVERSE

据说中文超越llama2的元象开源模型13B模型

BiLLa

LLama词表·扩充预训练+预训练和任务1比1混合SFT+指令样本SFT三阶段训练

Phoenix

港中文开源凤凰和奇美拉LLM,Bloom基座,40+语言支持

Wombat-7B

达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座

TigerBot

虎博开源了7B 180B的模型以及预训练和微调语料

Luotuo-Chinese-LLM

冷子昂@商汤科技, 陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目,包含了一系列大语言模型、数据、管线和应用

OpenBuddy

Llama 多语言对话微调模型

Chinese Vincuna

LLama 7B基座,使用Belle+Guanaco数据训练

Linly

Llama 7B基座,使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令微调数据集训练

Firefly

中文2.6B模型,提升模型中文写作,古文能力,待开源全部训练代码,当前只有模型

Baize

使用100k self-chat对话数据微调的LLama

BELLE

使用ChatGPT生成数据对开源模型进行中文优化

Chatyuan

chatgpt出来后最早的国内开源对话模型,T5架构是下面PromptCLUE的衍生模型

PromptCLUE

多任务Prompt语言模型

PLUG

阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流

CPM2.0

智源发布CPM2.0

来源:小喵学AI内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯