铁杆拆卸!来自GPT
时间:2025-08-20 10:56 作者:365bet官网

Xin Zhiyuan报告编辑:自GPT-2以来,Yuan Yu Yingzhi [Xin Zhiyuan介绍],尽管大型模型的整体架构并未发生巨大变化,但并没有阻止其演变。在OpenAI开源GPT-Oss(120b/20b)中,塞巴斯蒂安·拉斯卡卡(Sebastian Raschka)博士在硬核拆卸站点,该站点监测了大型模型从GPT-2到GPT-oss的演变,并将GPT-oss与Qwen3进行了详细比较。 8月5日,即GPT-5发行前两天,OpenAI推出了两个主要语言模型的开放资源:GPT-OS-1220B和GPT-OSS-20B。这是自2019年GPT-2以来,OpenAI首次发布了开放权重模型。由于明智的优化技术,这些模型可以在本地设备上运行。在“从GPT-2到GPT-oss:建筑发展分析”的文章中,硬核拆卸站点的Sebastian Raschka博士深入评估了LLM体系结构从GPT-2到GPT-2的演变,并将GPT-oss与QWEN3细节进行了比较。以下是quick查看本文的主要内容:模型体系结构:GPT-2比较和GPT-soss模型体系结构; MXFP4技术技术:如何将大型GPT-soss模型部署到单个GPU;宽度和深度的权衡:比较和评估GPT-SOSP和QWEN3设计思想;注意机制的细节:注意偏见和注意力;性能基准:GPT-5观点的全面分析和比较。在深入讨论架构细节之前,首先检查GPT-ASS-20B和GPT-ASS-12B的一般体系结构之前,对GPT-2和GPT-2-oss模型体系结构进行了比较。图1:比较两个GPT-soss模型,您可以想象,与我最近见过的LLM体系结构相比,这并不是什么新鲜事物。这并不奇怪,因为领先的LLM开发人员经常使用相同的基础架构,并且性能提高可能来自数据和算法调整,然后进行一些小调整。其背后的因素可能包括:1。人才流:流领先的实验室之间的人才经常; 2。变压器的主要建筑位置:迄今为止,没有比变压器结构更好的解决方案; 3。绩效改进可以来自精细的数据处理和算法处理,而不是重大的体系结构变化。从GPT-2到GPT-oss,LLM模型的演变首先采用“ Time Machine”并返回GPT-2。图2:GPT-OS-20B和GPT-2 XL1.5B GPT-OSS和GPT-2之间的比较均基于2017年的论文“注意力是您所需要的。 1.删除辍学是防止过度拟合的传统程序。在训练过程中,下垂被随机“丢弃”一定数量的激活网络层或注意力标记(即设置为零)。 GPT-2之后的大多数现代LLM很少使用辍学。图3:将辍学标记应用于矩阵GPT-2注意标记I的示意图Inate使用了辍学,可能是遵循第一个变压器架构设计的。研究人员发现,它并不能真正提高LLM的性能。这可能是因为LLM通常在大规模数据集中执行单连接训练,这在最初设计用于训练数百个周期的Senhances中是完全不同的。因为每个令牌只能在训练过程中看到一次,所以过度拟合的风险最初很小。通过Python 1.4B实验证实了今年的角色,在当前的单一训练方式中,辍学的使用实际上会导致下游任务中的模型性能差。 2。绳索代替了基于大型变压器的大型模型中的完整位置,需要编码位置编码,因为注意机制本身具有将输入令牌视为无序的缺点。在GPT的原始架构中,整个位置将信息推向了该位置按顺序为每个位置的向量位置,并将其添加到Thisken的宝石中。图4:完整的绳索位置的描述(GEM中的旋转位置)不会以独立的成员为位置添加信息,而是基于每个令牌的位置来介绍查询和密钥向量。该绳索是在2021年首次提出的,但直到2023年Meta发布了第一个Llama型号之前,它才被广泛采用,并且由于LLM调整已成为标准。 3。激活行为之间的战斗:为什么Swish/Swiglig取代了Gelu?激活功能的选择曾经是一个热门话题,直到十多年前逐渐修复REU。从那时起,研究人员建议并测试了更多“平滑” REU变体,而Gelu和Swish已被广泛维护和使用。图5:比较由Swish和Gelu激活的PAG,这两个都是REU的平滑版本。第一个GPT体系结构使用凝胶,定义为:0.5·x·[1+Erf(X/√2)]。在哪里ERF(误差函数)与高斯积分相关联,通常通过高斯积分的多项式近似来计算。 Swish使用更简单的Sigmoid函数,该功能的形式为X·Sigmoid(X)。实际上,Swish的计算成本比GELU略低,这可能是为什么它用大多数新型号取代Gelu的主要原因。至于绩效建模,不同论文的结论会有所不同 - 但是这些差异通常属于立式标准误差的范围。在该地区,最终增益和缺点在很大程度上取决于高参数的调整。如今,Swish已成为Caramihan建筑的选择。但是,Gelu并没有完全放弃。例如,今年发布的Google Gemma模型仍然主张使用Gelu。更重要的变化:GLU结构更明显的是比激活函数本身更明显的变化是模块的结构。为模型的进料也发生了变化。前馈模块通常用门控的GLU(封闭线性单元)代替。具体而言,原始的两层整个连接将被三层完整连接替换,其使用如下图所示。 Figure 6: Comparison between Swish and Gelu and their corresponding versions Swiglu and Geglu For easy explanation, specific ideas for implementing the conventional FFN and GLU and glu 4 × d_model code = 4096, so there is: FC1: 1024 × 4096 = 4,194,304FC2: 1024 × 4096 = 4,19494,304 in other words, FC1+FC2 = 8,388,608参数。 GLU(swiglu)的变体参数总数:3×1,048,576 = 3,145,728结论非常清楚:Swiglu结构不仅具有更好的性能,而且参数的总数实际上较小。它的优势来自与门控带来的繁殖的进一步接触,从而改善了模型能力的表达。在适当的培训下,更深入d较窄的网络倾向于错过和更广泛的网络。 4。混合专家模型(MOE)以换取单个前馈网络,除了升级上述Swiglu中的前馈模块外,GPT-Oss还用多个前馈模块代替了单个馈电模块,并且仅启用了一个子集的子集的每个步骤。如下图8所示,这种练习称为经验的光晕(MOE,专家混合)。图8:馈电模块被专业混合(MOE)模块所取代,因此,用多个前馈模块(典型的MOE)代替单个馈电模块可显着增加模型参数的总成本。但是关键是:我们不会重新定义每个令牌的所有专家,因此Moe通常被称为广泛的模块。相反,始终使用所有参数的密集模块称为密集模块。 MOE带来的参数总量意味着在培训期间可以“安装”更多的知识;稀疏可以在推理的原因下保持高效率。 5。组查询(GQA)近年来取代了看涨的注意力(MHA),查询(GQA)的总体注意力已成为多头注意参数(MHA)的计算和效率。所有都是更高的继任者。在多头注意(MHA)中,每个头部都有一组独立的键和向量值。 GQA的主要思想是通过分组减少计算量:它允许许多查询标头共享相同的键和值。如(图9)所示,认为有4个注意标头和2个键值组,然后标题1和2可以共享一组基本值,而标题3和4共享另一组。这种分组机制降低了键和值的总计算,从而降低了内存的使用并提高效率。在PAG理解过程中,较少的键值张量需要是缓存(KV缓存)并读取,这大大降低了带宽M的需求Emory并加速了这一代。图9:MHA和GQA的比较;在这里,组的大小为2,其中一对键和值共享2个查询中的GQA,并具有两个好处:(1)减少参数的体积; 。 6。滑动滑动注意滑动如下图10所示。这项技术首先是由Longformer Paper(2020)引入的,后来由Mistral推广。图10:与滑动窗口的关注(右)相比,标准注意力(左)明显地,GPT-oss将窗户的窗户的幻灯片彼此应用于彼此,可以看作是MHA/GQA变体。它的主要思想是将注意力计算的范围限制为较小的窗口,从而有效地使用了记忆和计算成本。 GPT-oss在网络上交替使用两种类型的GQA层:一个人注意整个上下文,另一个使用一个滑动窗口,只有128个令牌。根据消融的研究,滑动窗口的注意力对模型的性能几乎没有影响。应该注意的是,Gemma2窗口为4096令牌,因为Gemma3将其丢弃至1024令牌。在GPT-oss中,窗户只有128个令牌,这很小。 GPT-3使用类似的交替致密和本地带,例如稀疏注意,而GPT-oss类似于GPT-3,并且还使用了交替的致密和局部注意力的图案,例如频段。回顾GPT-3纸,实际上有一个相关的描述:我们使用与GPT-2相同的模型体系结构...区别在于,我们在变压器层中使用交替的浓度和本地带式的稀疏注意模式,类似于稀疏变压器。 7。rmsnorm替代了分层。最后,与GPT-2相比,最后一个很少的调整是用RMSNorm替换分层。如何将swish和ffn中的gelu更改为swiglis,rmsnorm也是一个很小但合理的效率提高。 RMSNorm和Laiserorm的目的是使层激活值正常化,如图所示下图。图11:与图11中的小线性层上的RMSNORM(右)相比,分层(左)的比较,分层和RMSNOMM缩放层在合理范围内的输出。 Layernorm将其含义降低并将其除以通常的偏差,从而使层的输出的均值为零和单位的差异 - 差异为1(差为1,通常的偏差为1)。划分byrmsnorm rms的输入。它不会迫使单位的零均值和差异 - 差异,但是含义和差异的差异仍将落在合理的范围内:它的含义约为-1至1,差异约为0到1。尽管两者都可以在稳定激活值和提高优化方面发挥作用,但RMSNorm比LLM的成本更多。与LayerNorm不同,RMSNorm没有偏差(偏置/移位)的术语,并简化了计算RMS操作中含义和差异的两个步骤。它减少了壮举的减少操作重新尺寸从两次到一次,从而减少了GPU之间的沟通开销并提高训练效率。下图显示了它们在打码方面的差异,如图:图12:分层和RMSNORM代码的实现,表明RMSNOMM在计算8中更简单。GPT-2是学习LLM时的一个非常好的入门级体系结构。从GPT-2开始,您可以专注于基本元素(注意机制,位置嵌入,标准化和一般培训过程),而无需通过无尽的功能和新体系结构调整细节“激发”。 GPT-OB与QWEN3相比,将GPT-2与GPT-OSS的进化分类后,近距离QWEN3体系结构中的GPT-oss塞巴斯蒂安·拉斯卡卡(Sebastian Raschka)博士进行了比较。 QWEN3选择主要基于两个因素:1。Qwen3当前属于顶级开放权重模型; 2。QWEN3的MOE变体在饮用参数方面与GPT-oss相似,这是方便的Fordirect比较。相比之下在这个数字上,我们可以看到GPT-OS20B和QWEN3 30B-A3B与架构非常相似。图13:GPT-OSS-20B和QWEN3模型之间的主要区别在于,GPT-Oss使用了滑动窗口的注意机制,而QWEN3不使用此机制。 1。与深度权衡QWEN3相比,宽度是一个更深的架构,它具有48个变压器块而不是24个(请参见下面的图14)。图14:QWEN3的QWEN3变压器块编号在GPT-OSS-20B中是两次。 GPT-oss的结构更为“更宽”:嵌入尺寸(EMB)编辑的尺寸为2880,而Qwen3是2048年。中间专业层的投影大小(即FeedForward网络)也是2880,也是2880,Qwen3和Qwen3是768。按嵌入式大小。基于参数的总数是固定的,它更好,“更深”或“更宽”?一项拇指政策S:更深层次的模型在表达方面更灵活,但是训练更容易受到不稳定的影响(梯度爆炸/谨慎),这正是RMSNOMM试图缓解残留/快捷连接的问题。由于更好的相似性,推理时,广泛的体系结构通常会更快。成本是更高的视频记忆使用。 2。与大量“小专家” GPT-Oss相比,少数“大型专家”的专家较少(32位比128个),每个令牌被激活的专家较少(4 vs 8);但是,单一的GPT-OSK专家比QWEN3专家更大且“更广泛”。这很有趣,因为最近的趋势往往是“越来越小”的专家。在MOE中,Deviceek角色中有很多例子。图15:本文的注释图“ DeepSeekmoe:成员专家Mentem的Finic Experter专家”与DeepSeek不同。 GPT-oss和Qwen3均未采用“共享专家”设计。客观地说,GPT-A更少SS-20B专家,可能仅仅是因为其模型较小。观看GPT-OS-1220B版本(请参见下面的图16),当其他设置保持不变时,它确实添加了专家和层数。图16:比较两个GPT-oss体系结构,120B模型仅扩展了变压器块的数量和专家的数量。但是,尺寸仅具有两种尺寸的层数和专家数量。 QWEN3的多阶段MOE模型(见图17)将与在更多方面的扩展成正比。图17:QWEN3 3不同模型中的架构变化。注意和注意力偏见正在下沉GPT-OSL和QWEN3都是GQA的用途(查询组注意)。主要区别在于,GPT-oss使用彼此的滑动窗口的注意来限制上下文。但是有一个细节引起人们的注意:GPT-OS似乎使用偏见术语与注意力重量。图18:注意力层使用D之后的GPT-oss模型GPT-2单元的探测,偏置项很少在这里看到,通常被认为是多余的。根据最近的角色,数学至少已被证明是k_proj;证据经验的经验也表明,偏见几乎没有差异。图19:显示了从头开始训练模型时的平均测试和无偏单元的平均测试。另一个细节是图18中代码中的水槽的定义。注意nks)通常是指一些特殊的,通常参加了进入订单开始的令牌。它们的作用是稳定注意力的机制,这在悠久的情况下特别有用。在GPT-OSL的实施中,注意的凹陷不是真实的令牌,而是头部(每个头)学到的偏置逻辑,直接添加到注意力标记中。图20:对GPT-oss的注意;基于拥抱面孔代码的有趣的小知识1。培训概述有关规模的同样信息在GPT-oss培训集的算法上。下面摘录了模型卡(1)和公告(2)的最关键线索:GPT-Oss使用我们最先进的培训和培训后技术进行培训[...](1);培训持续约210万小时的H100GPU,其中GPT-OS-20B降低了约10倍(1);该过程包括一个精致修复的阶段和高级计算研究阶段[...](2);数据是主要英语和简单的文本,侧重于STEM,编程和常识(2)。从这里我们可以看到GPT-oss是一种认可模型。它的训练量为210万h100小时,与DeepSeek V3非常相似(27.88亿H800小时)。不幸的是,QWEN3培训时间尚未公开。 GPT-oss训练时间合并了RIN的管理研究,并进行了推理推理的指示和研究;虽然DeepSeek V3只是一个预训练的基础,而DeepSeek R1进行了训练。 2。强度OF识别如上所述,GPT-OS是识别的模型。特殊的是通过推理来衡量和缩回的训练,使用户可以调整理解力。具体而言,GPT-oss可以接受系统提示中的“推理工作:低/中/高”命令(请参见下面的图21),并直接影响响应的长度和准确性。图21:GPT-oss模型在各种概念力作用下(来自型号卡的注释图)的响应时间和质量的长度可以轻松平衡成本,计算的强度和准确性。 3。MXFP4优化:小小的细节,一个有趣的透明惊喜Openai为MoE专家发布了MXFP4音量解决方案的GPT-oss模型。 MXFP4的优化使该模型可以在单个卡设备上运行。它可以将GPT-OS-1220B放入单个80GB H100或更新的GPU中;虽然20B小型型号也可以放置16GB视频内存。 GPT-oss型号可能与旧硬件一起运行,但没有支持MXFP4,因此视频记忆使用较高。 4。4。根据GPT-Oss公告发布的推理基准测试的基准测试,GPT-Oss与OpenAI和QWEN3的自开发的封闭起源相当(请参见下面的图22)。图22:基准的主要图表来自官方的GPT-Oss公告帖子。 20B的GPT-OS-1 ang数据来自官方纸张,QWEN3的数量来自Qwen3的官方仓库。值得注意的是,GPT-OSS-1220B的大小约为QWEN3 A235B-A22B-INCKINGING-25的一半,并且可以在一张卡上操作。当然,基准标记不等于真实的可用性。根据最近几天的试验,GPT-Oss具有良好的功能,但也有许多人注意到幻觉的趋势相对较高(在型号卡中也提到)。它可能与诸如数学,难题和代码之类的推理活动中的培训重点有关,导致了特定c“一般的健忘”。但是,由于GPT-oss是专门针对该工具的工具,因此由于开源LLM工具的集成正在衰老,因此优先考虑提高“识别能力”而不是“内存”,因此这种不足可能会逐渐降低未来的影响。 5。GPT-oss和gpt-5 OpenAI尽快在GPT-oss之后已期待已久的GPT-5的Pinalack。有趣的是,GPT-oss模型与OpenAI的旗舰产品之间的接近性在基准性能方面令人惊讶(见图23)。图片23:GPT-oss数据源自官方卡榜单和公告,QWEN3数据源自官方的Qwen3-Coder仓库。当然,基准是实用的。因为使用的样本很少,所以完成还为时过早。但这无疑是开放资源和本地/私人部署爱好者的好时机。参考:https://magazine.sebastianraschka.com/p/from-bpt-2-t-t-t-t-t-m-pranistion-the-the-the-th----
特别声明:内容aBove(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。