Llama3

来自站长百科
跳转至: 导航、​ 搜索

Llama3是科技、社交巨头Meta于2024年4月发布的一款开源大模型。据悉,Llama3共有80亿、700亿两种参数,分为基础预训练和指令微调两种模型,使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。同时,Llama3还使用了分组查询注意力、掩码等创新技术,帮助开发者以最低的能耗获取绝佳的性能。

Llama3特点[ ]

Transformer架构[ ]

Llama3采用了纯解码器Transformer架构,这是一种处理序列数据的技术,能够捕获输入序列中每个元素之间的重要关系。

技术创新[ ]

Llama3采用了分组查询注意力(Grouped QA)机制和掩码技术,这些技术有助于提高模型的性能,同时降低能耗。

为了确保模型不会跨越文档边界,通常会与掩码技术一起使用。在自我注意力中,掩码被应用于注意力权重矩阵,用于指示哪些位置的信息是有效的,哪些位置应该被忽略。通常当处理文档边界时,可以使用两种类型的掩码来确保自我注意力不会跨越边界:

1、填充掩码:当输入序列的长度不一致时,通常会对较短的序列进行填充,使其与最长序列的长度相等。填充掩码用于标记填充的位置,将填充的部分掩盖,使模型在自我注意力计算中忽略这些位置。

2、未来掩码:在序列生成任务中,为了避免模型在生成当前位置的输出时依赖后续位置的信息,可以使用未来掩码。未来掩码将当前位置之后的位置都掩盖起来,使得自我注意力只能关注当前或之前的位置。

参数规模[ ]

Llama3提供了两种参数规模的模型,分别是80亿参数(8B)和700亿参数(70B)。其中,8B版本适合在消费级GPU上高效部署和开发,而70B版本则专为大规模AI应用设计。

预训练与微调[ ]

每个版本都包括基础预训练和指令微调两种形式,这使得模型能够更好地适应不同的应用场景和需求。

性能提升[ ]

Llama3在超过15万亿tokens的公开数据集上进行了预训练,这比前代模型Llama 2的训练数据量有显著增加,从而在多个领域,如推理、数学、代码生成、指令跟踪等方面的能力获得了大幅度提升。

多语言支持[ ]

为了实现多语言能力,Llama 3的预训练数据集中包含了超过5%的高质量非英语数据,涵盖了30多种语言,这有助于模型处理更广泛的语言任务。

安全性增强[ ]

基于Llama 3 8B微调后的Llama Guard新版本也已发布,即Llama Guard 2(安全微调版本),这标志着模型在安全性方面的进步。

开放性与集成[ ]

Llama3的发布体现了Meta对开放AI领域的持续投入,并且与Hugging Face生态系统实现了深度集成,这有助于推动AI技术的普及和应用。

Llama3测试数据[ ]

为了测试Llama3的性能,Meta开发了一个全新的高质量人类评估数据集,有1,800个提示,涵盖12个关键用例,包含,征求建议,头脑风暴,分类,封闭式问题回答,编码,推理等。

测试结果显示,Llama3 -700亿参数的指令微调模型的性能,大幅度超过了Claude Sonnet、Mistral Medium和GPT-3.5。

Meta还在MMLU、AGIEval、BIG、ARC等知名测试平台中,对Llama3 -700亿参数基础预训练模型进行了综合测试,性能大幅度超过了Mistral 7B、Gemma 7B、Gemini Pro 1.0等知名开源模型。

发展历程[ ]

  • 2024年4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。
  • 2024年4月19日,百度智能云千帆大模型平台在国内首家推出针对Llama 3全系列版本的训练推理方案,便于开发者进行再训练,搭建专属大模型。
  • 2024年4月22日,阿里云百炼大模型服务平台宣布在国内推出针对Llama 3系列的限时免费训练、部署、推理服务。

相关条目[ ]