编辑“LLaMA”

LLaMA是一系列由Meta AI于2023年2月发布的一款开源基础语言模型，和GPT一样都是由Transformer的解码器组成，在生成[[文本]]、进行对话、总结书面材料等复杂的任务方面表现出了巨大的潜力。LLaMA覆盖了从7B（70亿参数）到65B（650亿参数）的不同尺寸。这些模型在开放基准的各种任务中表现出色，因此受到了研究界和工业界的广泛关注。
== 功能特点 ==
=== 上下文窗口 ===
LLaMA模型的上下文窗口长度得到了扩展，从之前的2048增加到4096，使模型能够处理更长的文本内容，提供更全面的语境理解。
=== 预训练和微调 ===
LLaMA模型在公开可用的在线数据来源上进行预训练，这些数据包含了数万亿的标记。此外，特定版本的LLaMA模型，如Llama-2-chat，还通过公开可用的对话数据集和超过一百万条人类注释进行了微调，以提高其在对话场景中的表现。
=== 性能表现 ===
LLaMA模型在多个基准测试上表现出色。例如，具有130亿参数的LLaMA模型能够在单块V100 [[GPU]]上运行，并且在大多数基准上胜过参数量达1750亿的GPT-3。而最大的650亿参数的LLaMA模型则可以媲美谷歌的Chinchilla-70B和PaLM-540B。
=== 量化模型 ===
LLaMA提供了8位和4位的量化模型，这使得模型能够在不同精度需求下运行，从而适应不同的资源限制和性能要求。
=== 多语言支持 ===
虽然具体支持的语言未提及，但作为一款大型语言模型，LLaMA很可能支持多种语言，以满足全球用户的需求。
=== 开源可访问 ===
LLaMA模型是Meta推出的首个开源大型语言模型，这意味着研究人员和开发者可以免费访问和使用该模型，进行进一步的研究和开发。
== 模型架构 ==
=== RMSNorm ===
为了提高训练稳定性，LLaMA采用了前置的RMSNorm（Root Mean Square Normalization）。不同于传统的Transformer模型中常用的后置Layer Normalization (LN)，这种归一化方法作用于transformer子层的输入而非输出，有助于模型更好地捕捉长距离依赖关系。
=== RoPE ===
在位置编码方面，LLaMA使用了RoPE（Rotary Positional Embeddings），这是一种旋转式位置编码方式，用于增强模型处理位置信息的能力。
=== SwiGLU ===
LLaMA利用了SwiGLU激活函数，这是受到PaLM启发的一种激活函数，用以替代原始的ReLU，以期提升模型的学习效果。
=== Group Query Attention (GQA) ===
为了处理更长的文本输入，LLaMA使用了分组查询注意力机制，允许模型拥有更长的上下文窗口（达到4096个tokens），并有效减少了整体参数量。
=== MLP结构 ===
在多层感知机（MLP）的设计上，LLaMA采用了down(up(x)) × SiLU(gate(x))的形式，其中down, up, gate均为线性层，这有助于模型学习更复杂的非线性关系。
=== Causal Mask ===
由于采用了因果解码器（causal decoder-only）的Transformer模型结构，LLaMA在自注意力机制中使用了因果掩码（causal mask），确保每个位置只能看到前面的tokens，从而符合自然语言处理中的时序性要求。
== 发展历史 ==
* 2023年2月，Meta向研究人员和学者发布了自有大语言模型LLaMA。
* 2023年7月，Meta发布其首个开源可商用大语言模型Llama 2。Llama 2是Meta大语言模型Llama模型的最新商用版本，也是Meta首个免费商用的大语言模型。
* 2024年2月，Meta将于今年7月推出其最新版本的[[人工智能]]大语言模型Llama 3。
== 相关条目 ==
* [[ChatGPT]]
* [[GPT-4]]
* [[讯飞星火]]
* [[文心一言]]
* [[腾讯混元]]
[[category:AI大模型|L]]