站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
LLaMA
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
LLaMA是一系列由Meta AI于2023年2月发布的一款开源基础语言模型,和GPT一样都是由Transformer的解码器组成,在生成[[文本]]、进行对话、总结书面材料等复杂的任务方面表现出了巨大的潜力。LLaMA覆盖了从7B(70亿参数)到65B(650亿参数)的不同尺寸。这些模型在开放基准的各种任务中表现出色,因此受到了研究界和工业界的广泛关注。 == 功能特点 == === 上下文窗口 === LLaMA模型的上下文窗口长度得到了扩展,从之前的2048增加到4096,使模型能够处理更长的文本内容,提供更全面的语境理解。 === 预训练和微调 === LLaMA模型在公开可用的在线数据来源上进行预训练,这些数据包含了数万亿的标记。此外,特定版本的LLaMA模型,如Llama-2-chat,还通过公开可用的对话数据集和超过一百万条人类注释进行了微调,以提高其在对话场景中的表现。 === 性能表现 === LLaMA模型在多个基准测试上表现出色。例如,具有130亿参数的LLaMA模型能够在单块V100 [[GPU]]上运行,并且在大多数基准上胜过参数量达1750亿的GPT-3。而最大的650亿参数的LLaMA模型则可以媲美谷歌的Chinchilla-70B和PaLM-540B。 === 量化模型 === LLaMA提供了8位和4位的量化模型,这使得模型能够在不同精度需求下运行,从而适应不同的资源限制和性能要求。 === 多语言支持 === 虽然具体支持的语言未提及,但作为一款大型语言模型,LLaMA很可能支持多种语言,以满足全球用户的需求。 === 开源可访问 === LLaMA模型是Meta推出的首个开源大型语言模型,这意味着研究人员和开发者可以免费访问和使用该模型,进行进一步的研究和开发。 == 模型架构 == === RMSNorm === 为了提高训练稳定性,LLaMA采用了前置的RMSNorm(Root Mean Square Normalization)。不同于传统的Transformer模型中常用的后置Layer Normalization (LN),这种归一化方法作用于transformer子层的输入而非输出,有助于模型更好地捕捉长距离依赖关系。 === RoPE === 在位置编码方面,LLaMA使用了RoPE(Rotary Positional Embeddings),这是一种旋转式位置编码方式,用于增强模型处理位置信息的能力。 === SwiGLU === LLaMA利用了SwiGLU激活函数,这是受到PaLM启发的一种激活函数,用以替代原始的ReLU,以期提升模型的学习效果。 === Group Query Attention (GQA) === 为了处理更长的文本输入,LLaMA使用了分组查询注意力机制,允许模型拥有更长的上下文窗口(达到4096个tokens),并有效减少了整体参数量。 === MLP结构 === 在多层感知机(MLP)的设计上,LLaMA采用了down(up(x)) × SiLU(gate(x))的形式,其中down, up, gate均为线性层,这有助于模型学习更复杂的非线性关系。 === Causal Mask === 由于采用了因果解码器(causal decoder-only)的Transformer模型结构,LLaMA在自注意力机制中使用了因果掩码(causal mask),确保每个位置只能看到前面的tokens,从而符合自然语言处理中的时序性要求。 == 发展历史 == * 2023年2月,Meta向研究人员和学者发布了自有大语言模型LLaMA。 * 2023年7月,Meta发布其首个开源可商用大语言模型Llama 2。Llama 2是Meta大语言模型Llama模型的最新商用版本,也是Meta首个免费商用的大语言模型。 * 2024年2月,Meta将于今年7月推出其最新版本的[[人工智能]]大语言模型Llama 3。 == 相关条目 == * [[ChatGPT]] * [[GPT-4]] * [[讯飞星火]] * [[文心一言]] * [[腾讯混元]] [[category:AI大模型|L]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)