4月5日,Meta公司发布了其大型语言模型Llama的最新版本Llama 4 Scout和Llama 4 Maverick,同时预告了Llama 4 Behemoth,是“新模型中的教师”。Llama 4支持12种语言,被称为目前最强的开源多模态大模型。据Meta介绍,Llama4是多模态大模型,能处理整合多种数据,能在不同格式间实现内容转换,效率倍增。
一、Llama 4主要特点
1、采用MoE架构
由于本次是Llama首次采用混合专家架构,任务执行时仅激活部分参数,例如如Maverick总参数4000亿,活跃参数170亿,显著提升了训练和推理效率。
2、多模态融合
Llama 4早期融合策略统一处理文本、图像、视频,突破传统多模态模型的分阶段处理限制。
3、超长上下文
Llama 4 Scout支持1000万Token上下文窗口,大约2000万字文本或20小时视频,通过iRoPE架构能够实现“短序列训练,长序列泛化”。
4、部署
Int4量化后,Llama 4 Scout支持单张H100 GPU运行,Llama 4 Maverick则需H100 DGX集群,Llama 4 Behemoth据说使用了32000块GPU训练。
5、后训练策
Llama 4采用“轻量级SFT→在线RL→轻量级DPO”流程,减少对齐约束,增强模型探索能力。同时引入“自我批判式数据筛选”,利用早期模型Check point检查点过滤低质量训练样本,显著提升最终性能。
二、Llama 4主要产品
1、LLaMA 4 Scout
LLaMA 4 Scout拥有1000万词元(token)的超长上下文窗口,远远领先于多数现有开源大语言模型。在推理、摘要生成与指令遵循等标准评测中,全面超越Google的Gemma 3与Mistral 3.1。
LLaMA 4 Scout在单张NVIDIA H100 GPU上高效运行而优化,是一款轻量却不失强劲性能的模型,适合科研人员与中小型企业应用。
2、LLaMA 4 Maverick
LLaMA 4 Maverick采用专家混合机制(Mixture-of-Experts, MoE),仅激活部分参数进行计算,在保持卓越表现的同时显著提升效率。精于代码生成、多跳推理与高级搜索任务。同时剑指当前语言模型的重量级选手,如GPT-4o、Claude3.5 与DeepSeek-V3。
3、Llama 4 Behemoth
Llama 4 Behemoth预计将在2025年4月29日的LLaMACon(Meta首届开源AI大会)上正式发布,具体功能大家一起拭目以待吧。
亮点一览:
- 采用专家混合架构(Mixture-of-Experts),在每次推理中仅启用部分模型参数;
- 总参数规模高达2万亿,每次推理激活参数约2880亿聚焦科学、数学、多语言推理与代码生成等高复杂度任务;
- 有望在STEM领域的基准测试中超越GPT-4.5与Claude Sonnet 3.7;
- 预计将在2025年4月29日的LLaMACon(Meta首届开源AI大会)上正式发布。
三、Llama 4性能表现
Llama 4对比其他模型的性能表现
从下图数据可以看出Llama 4 Scout在轻量级类别中表现优于所有模型,Llama 4 Maverick与GPT-4o和Claude不相上下。
-
广告合作
-
QQ群号:4114653