首页站长新闻重磅!Meta发布最新AI大模型Llama 4

重磅!Meta发布最新AI大模型Llama 4

2025-04-07 39

4月5日,Meta公司发布了其大型语言模型Llama的最新版本Llama 4 Scout和Llama 4 Maverick,同时预告了Llama 4 Behemoth,是“新模型中的教师”。Llama 4支持12种语言,被称为目前最强的开源多模态大模型。据Meta介绍,Llama4是多模态大模型,能处理整合多种数据,能在不同格式间实现内容转换,效率倍增。

一、Llama 4主要特点

1、采用MoE架构

由于本次是Llama首次采用混合专家架构,任务执行时仅激活部分参数,例如如Maverick总参数4000亿,活跃参数170亿,显著提升了训练和推理效率。

2、多模态融合

Llama 4早期融合策略统一处理文本、图像、视频,突破传统多模态模型的分阶段处理限制。

3、超长上下文

Llama 4 Scout支持1000万Token上下文窗口,大约2000万字文本或20小时视频,通过iRoPE架构能够实现“短序列训练,长序列泛化”。

4、部署

Int4量化后,Llama 4 Scout支持单张H100 GPU运行,Llama 4 Maverick则需H100 DGX集群,Llama 4 Behemoth据说使用了32000块GPU训练。

5、后训练策

Llama 4采用“轻量级SFT→在线RL→轻量级DPO”流程,减少对齐约束,增强模型探索能力。同时引入“自我批判式数据筛选”,利用早期模型Check point检查点过滤低质量训练样本,显著提升最终性能。

二、Llama 4主要产品

重磅!Meta发布最新AI大模型Llama 4

1、LLaMA 4 Scout

LLaMA 4 Scout拥有1000万词元(token)的超长上下文窗口,远远领先于多数现有开源大语言模型。在推理、摘要生成与指令遵循等标准评测中,全面超越Google的Gemma 3与Mistral 3.1。

LLaMA 4 Scout在单张NVIDIA H100 GPU上高效运行而优化,是一款轻量却不失强劲性能的模型,适合科研人员与中小型企业应用。

2、LLaMA 4 Maverick

LLaMA 4 Maverick采用专家混合机制(Mixture-of-Experts, MoE),仅激活部分参数进行计算,在保持卓越表现的同时显著提升效率。精于代码生成、多跳推理与高级搜索任务。同时剑指当前语言模型的重量级选手,如GPT-4o、Claude3.5 与DeepSeek-V3。

3、Llama 4 Behemoth

Llama 4 Behemoth预计将在2025年4月29日的LLaMACon(Meta首届开源AI大会)上正式发布,具体功能大家一起拭目以待吧。

亮点一览:

  • 采用专家混合架构(Mixture-of-Experts),在每次推理中仅启用部分模型参数;
  • 总参数规模高达2万亿,每次推理激活参数约2880亿聚焦科学、数学、多语言推理与代码生成等高复杂度任务;
  • 有望在STEM领域的基准测试中超越GPT-4.5与Claude Sonnet 3.7;
  • 预计将在2025年4月29日的LLaMACon(Meta首届开源AI大会)上正式发布。

三、Llama 4性能表现

Llama 4对比其他模型的性能表现

从下图数据可以看出Llama 4 Scout在轻量级类别中表现优于所有模型,Llama 4 Maverick与GPT-4o和Claude不相上下。

重磅!Meta发布最新AI大模型Llama 4

  • 广告合作

  • QQ群号:4114653

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。
Llama 4主要产品
下一篇:

已经没有下一篇了!

相关文章