编辑“Llama3”（章节）

== Llama3特点 ==
=== Transformer架构 ===
Llama3采用了纯解码器Transformer架构，这是一种处理序列数据的技术，能够捕获输入序列中每个元素之间的重要关系。
=== 技术创新 ===
Llama3采用了分组查询注意力（Grouped QA）机制和掩码技术，这些技术有助于提高模型的性能，同时降低能耗。

为了确保模型不会跨越文档边界，通常会与掩码技术一起使用。在自我注意力中，掩码被应用于注意力权重矩阵，用于指示哪些位置的信息是有效的，哪些位置应该被忽略。通常当处理文档边界时，可以使用两种类型的掩码来确保自我注意力不会跨越边界：

1、填充掩码：当输入序列的长度不一致时，通常会对较短的序列进行填充，使其与最长序列的长度相等。填充掩码用于标记填充的位置，将填充的部分掩盖，使模型在自我注意力计算中忽略这些位置。

2、未来掩码：在序列生成任务中，为了避免模型在生成当前位置的输出时依赖后续位置的信息，可以使用未来掩码。未来掩码将当前位置之后的位置都掩盖起来，使得自我注意力只能关注当前或之前的位置。

=== 参数规模 ===
Llama3提供了两种参数规模的模型，分别是80亿参数（8B）和700亿参数（70B）。其中，8B版本适合在消费级[[GPU]]上高效部署和开发，而70B版本则专为大规模[[AI]]应用设计。
=== 预训练与微调 ===
每个版本都包括基础预训练和指令微调两种形式，这使得模型能够更好地适应不同的应用场景和需求。
=== 性能提升 ===
Llama3在超过15万亿tokens的公开数据集上进行了预训练，这比前代模型Llama 2的训练数据量有显著增加，从而在多个领域，如推理、数学、[[代码]]生成、指令跟踪等方面的能力获得了大幅度提升。
=== 多语言支持 ===
为了实现多语言能力，Llama 3的预训练数据集中包含了超过5%的高质量非英语数据，涵盖了30多种语言，这有助于模型处理更广泛的语言任务。
=== 安全性增强 ===
基于Llama 3 8B微调后的Llama Guard新版本也已发布，即Llama Guard 2（安全微调版本），这标志着模型在安全性方面的进步。
=== 开放性与集成 ===
Llama3的发布体现了Meta对开放AI领域的持续投入，并且与Hugging Face生态系统实现了深度集成，这有助于推动AI技术的普及和应用。