LLaMA
LLaMA是一系列由Meta AI于2023年2月发布的一款开源基础语言模型,和GPT一样都是由Transformer的解码器组成,在生成文本、进行对话、总结书面材料等复杂的任务方面表现出了巨大的潜力。LLaMA覆盖了从7B(70亿参数)到65B(650亿参数)的不同尺寸。这些模型在开放基准的各种任务中表现出色,因此受到了研究界和工业界的广泛关注。
功能特点[ ]
上下文窗口[ ]
LLaMA模型的上下文窗口长度得到了扩展,从之前的2048增加到4096,使模型能够处理更长的文本内容,提供更全面的语境理解。
预训练和微调[ ]
LLaMA模型在公开可用的在线数据来源上进行预训练,这些数据包含了数万亿的标记。此外,特定版本的LLaMA模型,如Llama-2-chat,还通过公开可用的对话数据集和超过一百万条人类注释进行了微调,以提高其在对话场景中的表现。
性能表现[ ]
LLaMA模型在多个基准测试上表现出色。例如,具有130亿参数的LLaMA模型能够在单块V100 GPU上运行,并且在大多数基准上胜过参数量达1750亿的GPT-3。而最大的650亿参数的LLaMA模型则可以媲美谷歌的Chinchilla-70B和PaLM-540B。
量化模型[ ]
LLaMA提供了8位和4位的量化模型,这使得模型能够在不同精度需求下运行,从而适应不同的资源限制和性能要求。
多语言支持[ ]
虽然具体支持的语言未提及,但作为一款大型语言模型,LLaMA很可能支持多种语言,以满足全球用户的需求。
开源可访问[ ]
LLaMA模型是Meta推出的首个开源大型语言模型,这意味着研究人员和开发者可以免费访问和使用该模型,进行进一步的研究和开发。
模型架构[ ]
RMSNorm[ ]
为了提高训练稳定性,LLaMA采用了前置的RMSNorm(Root Mean Square Normalization)。不同于传统的Transformer模型中常用的后置Layer Normalization (LN),这种归一化方法作用于transformer子层的输入而非输出,有助于模型更好地捕捉长距离依赖关系。
RoPE[ ]
在位置编码方面,LLaMA使用了RoPE(Rotary Positional Embeddings),这是一种旋转式位置编码方式,用于增强模型处理位置信息的能力。
SwiGLU[ ]
LLaMA利用了SwiGLU激活函数,这是受到PaLM启发的一种激活函数,用以替代原始的ReLU,以期提升模型的学习效果。
Group Query Attention (GQA)[ ]
为了处理更长的文本输入,LLaMA使用了分组查询注意力机制,允许模型拥有更长的上下文窗口(达到4096个tokens),并有效减少了整体参数量。
MLP结构[ ]
在多层感知机(MLP)的设计上,LLaMA采用了down(up(x)) × SiLU(gate(x))的形式,其中down, up, gate均为线性层,这有助于模型学习更复杂的非线性关系。
Causal Mask[ ]
由于采用了因果解码器(causal decoder-only)的Transformer模型结构,LLaMA在自注意力机制中使用了因果掩码(causal mask),确保每个位置只能看到前面的tokens,从而符合自然语言处理中的时序性要求。
发展历史[ ]
- 2023年2月,Meta向研究人员和学者发布了自有大语言模型LLaMA。
- 2023年7月,Meta发布其首个开源可商用大语言模型Llama 2。Llama 2是Meta大语言模型Llama模型的最新商用版本,也是Meta首个免费商用的大语言模型。
- 2024年2月,Meta将于今年7月推出其最新版本的人工智能大语言模型Llama 3。