铁杆拆卸！来自GPT

时间：2025-08-20 10:56 作者：365bet官网

Xin Zhiyuan报告编辑：自GPT-2以来，Yuan Yu Yingzhi [Xin Zhiyuan介绍]，尽管大型模型的整体架构并未发生巨大变化，但并没有阻止其演变。在OpenAI开源GPT-Oss（120b/20b）中，塞巴斯蒂安·拉斯卡卡（Sebastian Raschka）博士在硬核拆卸站点，该站点监测了大型模型从GPT-2到GPT-oss的演变，并将GPT-oss与Qwen3进行了详细比较。 8月5日，即GPT-5发行前两天，OpenAI推出了两个主要语言模型的开放资源：GPT-OS-1220B和GPT-OSS-20B。这是自2019年GPT-2以来，OpenAI首次发布了开放权重模型。由于明智的优化技术，这些模型可以在本地设备上运行。在“从GPT-2到GPT-oss：建筑发展分析”的文章中，硬核拆卸站点的Sebastian Raschka博士深入评估了LLM体系结构从GPT-2到GPT-2的演变，并将GPT-oss与QWEN3细节进行了比较。以下是quick查看本文的主要内容：模型体系结构：GPT-2比较和GPT-soss模型体系结构； MXFP4技术技术：如何将大型GPT-soss模型部署到单个GPU；宽度和深度的权衡：比较和评估GPT-SOSP和QWEN3设计思想；注意机制的细节：注意偏见和注意力；性能基准：GPT-5观点的全面分析和比较。在深入讨论架构细节之前，首先检查GPT-ASS-20B和GPT-ASS-12B的一般体系结构之前，对GPT-2和GPT-2-oss模型体系结构进行了比较。图1：比较两个GPT-soss模型，您可以想象，与我最近见过的LLM体系结构相比，这并不是什么新鲜事物。这并不奇怪，因为领先的LLM开发人员经常使用相同的基础架构，并且性能提高可能来自数据和算法调整，然后进行一些小调整。其背后的因素可能包括：1。人才流：流领先的实验室之间的人才经常； 2。变压器的主要建筑位置：迄今为止，没有比变压器结构更好的解决方案； 3。绩效改进可以来自精细的数据处理和算法处理，而不是重大的体系结构变化。从GPT-2到GPT-oss，LLM模型的演变首先采用“ Time Machine”并返回GPT-2。图2：GPT-OS-20B和GPT-2 XL1.5B GPT-OSS和GPT-2之间的比较均基于2017年的论文“注意力是您所需要的。 1.删除辍学是防止过度拟合的传统程序。在训练过程中，下垂被随机“丢弃”一定数量的激活网络层或注意力标记（即设置为零）。 GPT-2之后的大多数现代LLM很少使用辍学。图3：将辍学标记应用于矩阵GPT-2注意标记I的示意图Inate使用了辍学，可能是遵循第一个变压器架构设计的。研究人员发现，它并不能真正提高LLM的性能。这可能是因为LLM通常在大规模数据集中执行单连接训练，这在最初设计用于训练数百个周期的Senhances中是完全不同的。因为每个令牌只能在训练过程中看到一次，所以过度拟合的风险最初很小。通过Python 1.4B实验证实了今年的角色，在当前的单一训练方式中，辍学的使用实际上会导致下游任务中的模型性能差。 2。绳索代替了基于大型变压器的大型模型中的完整位置，需要编码位置编码，因为注意机制本身具有将输入令牌视为无序的缺点。在GPT的原始架构中，整个位置将信息推向了该位置按顺序为每个位置的向量位置，并将其添加到Thisken的宝石中。图4：完整的绳索位置的描述（GEM中的旋转位置）不会以独立的成员为位置添加信息，而是基于每个令牌的位置来介绍查询和密钥向量。该绳索是在2021年首次提出的，但直到2023年Meta发布了第一个Llama型号之前，它才被广泛采用，并且由于LLM调整已成为标准。 3。激活行为之间的战斗：为什么Swish/Swiglig取代了Gelu？激活功能的选择曾经是一个热门话题，直到十多年前逐渐修复REU。从那时起，研究人员建议并测试了更多“平滑” REU变体，而Gelu和Swish已被广泛维护和使用。图5：比较由Swish和Gelu激活的PAG，这两个都是REU的平滑版本。第一个GPT体系结构使用凝胶，定义为：0.5·x·[1+Erf（X/√2）]。在哪里ERF（误差函数）与高斯积分相关联，通常通过高斯积分的多项式近似来计算。 Swish使用更简单的Sigmoid函数，该功能的形式为X·Sigmoid（X）。实际上，Swish的计算成本比GELU略低，这可能是为什么它用大多数新型号取代Gelu的主要原因。至于绩效建模，不同论文的结论会有所不同 - 但是这些差异通常属于立式标准误差的范围。在该地区，最终增益和缺点在很大程度上取决于高参数的调整。如今，Swish已成为Caramihan建筑的选择。但是，Gelu并没有完全放弃。例如，今年发布的Google Gemma模型仍然主张使用Gelu。更重要的变化：GLU结构更明显的是比激活函数本身更明显的变化是模块的结构。为模型的进料也发生了变化。前馈模块通常用门控的GLU（封闭线性单元）代替。具体而言，原始的两层整个连接将被三层完整连接替换，其使用如下图所示。 Figure 6: Comparison between Swish and Gelu and their corresponding versions Swiglu and Geglu For easy explanation, specific ideas for implementing the conventional FFN and GLU and glu 4 × d_model code = 4096, so there is: FC1: 1024 × 4096 = 4,194,304FC2: 1024 × 4096 = 4,19494,304 in other words, FC1+FC2 = 8,388,608参数。 GLU（swiglu）的变体参数总数：3×1,048,576 = 3,145,728结论非常清楚：Swiglu结构不仅具有更好的性能，而且参数的总数实际上较小。它的优势来自与门控带来的繁殖的进一步接触，从而改善了模型能力的表达。在适当的培训下，更深入d较窄的网络倾向于错过和更广泛的网络。 4。混合专家模型（MOE）以换取单个前馈网络，除了升级上述Swiglu中的前馈模块外，GPT-Oss还用多个前馈模块代替了单个馈电模块，并且仅启用了一个子集的子集的每个步骤。如下图8所示，这种练习称为经验的光晕（MOE，专家混合）。图8：馈电模块被专业混合（MOE）模块所取代，因此，用多个前馈模块（典型的MOE）代替单个馈电模块可显着增加模型参数的总成本。但是关键是：我们不会重新定义每个令牌的所有专家，因此Moe通常被称为广泛的模块。相反，始终使用所有参数的密集模块称为密集模块。 MOE带来的参数总量意味着在培训期间可以“安装”更多的知识；稀疏可以在推理的原因下保持高效率。 5。组查询（GQA）近年来取代了看涨的注意力（MHA），查询（GQA）的总体注意力已成为多头注意参数（MHA）的计算和效率。所有都是更高的继任者。在多头注意（MHA）中，每个头部都有一组独立的键和向量值。 GQA的主要思想是通过分组减少计算量：它允许许多查询标头共享相同的键和值。如（图9）所示，认为有4个注意标头和2个键值组，然后标题1和2可以共享一组基本值，而标题3和4共享另一组。这种分组机制降低了键和值的总计算，从而降低了内存的使用并提高效率。在PAG理解过程中，较少的键值张量需要是缓存（KV缓存）并读取，这大大降低了带宽M的需求Emory并加速了这一代。图9：MHA和GQA的比较；在这里，组的大小为2，其中一对键和值共享2个查询中的GQA，并具有两个好处：（1）减少参数的体积；。 6。滑动滑动注意滑动如下图10所示。这项技术首先是由Longformer Paper（2020）引入的，后来由Mistral推广。图10：与滑动窗口的关注（右）相比，标准注意力（左）明显地，GPT-oss将窗户的窗户的幻灯片彼此应用于彼此，可以看作是MHA/GQA变体。它的主要思想是将注意力计算的范围限制为较小的窗口，从而有效地使用了记忆和计算成本。 GPT-oss在网络上交替使用两种类型的GQA层：一个人注意整个上下文，另一个使用一个滑动窗口，只有128个令牌。根据消融的研究，滑动窗口的注意力对模型的性能几乎没有影响。应该注意的是，Gemma2窗口为4096令牌，因为Gemma3将其丢弃至1024令牌。在GPT-oss中，窗户只有128个令牌，这很小。 GPT-3使用类似的交替致密和本地带，例如稀疏注意，而GPT-oss类似于GPT-3，并且还使用了交替的致密和局部注意力的图案，例如频段。回顾GPT-3纸，实际上有一个相关的描述：我们使用与GPT-2相同的模型体系结构...区别在于，我们在变压器层中使用交替的浓度和本地带式的稀疏注意模式，类似于稀疏变压器。 7。rmsnorm替代了分层。最后，与GPT-2相比，最后一个很少的调整是用RMSNorm替换分层。如何将swish和ffn中的gelu更改为swiglis，rmsnorm也是一个很小但合理的效率提高。 RMSNorm和Laiserorm的目的是使层激活值正常化，如图所示下图。图11：与图11中的小线性层上的RMSNORM（右）相比，分层（左）的比较，分层和RMSNOMM缩放层在合理范围内的输出。 Layernorm将其含义降低并将其除以通常的偏差，从而使层的输出的均值为零和单位的差异 - 差异为1（差为1，通常的偏差为1）。划分byrmsnorm rms的输入。它不会迫使单位的零均值和差异 - 差异，但是含义和差异的差异仍将落在合理的范围内：它的含义约为-1至1，差异约为0到1。尽管两者都可以在稳定激活值和提高优化方面发挥作用，但RMSNorm比LLM的成本更多。与LayerNorm不同，RMSNorm没有偏差（偏置/移位）的术语，并简化了计算RMS操作中含义和差异的两个步骤。它减少了壮举的减少操作重新尺寸从两次到一次，从而减少了GPU之间的沟通开销并提高训练效率。下图显示了它们在打码方面的差异，如图：图12：分层和RMSNORM代码的实现，表明RMSNOMM在计算8中更简单。GPT-2是学习LLM时的一个非常好的入门级体系结构。从GPT-2开始，您可以专注于基本元素（注意机制，位置嵌入，标准化和一般培训过程），而无需通过无尽的功能和新体系结构调整细节“激发”。 GPT-OB与QWEN3相比，将GPT-2与GPT-OSS的进化分类后，近距离QWEN3体系结构中的GPT-oss塞巴斯蒂安·拉斯卡卡（Sebastian Raschka）博士进行了比较。 QWEN3选择主要基于两个因素：1。Qwen3当前属于顶级开放权重模型； 2。QWEN3的MOE变体在饮用参数方面与GPT-oss相似，这是方便的Fordirect比较。相比之下在这个数字上，我们可以看到GPT-OS20B和QWEN3 30B-A3B与架构非常相似。图13：GPT-OSS-20B和QWEN3模型之间的主要区别在于，GPT-Oss使用了滑动窗口的注意机制，而QWEN3不使用此机制。 1。与深度权衡QWEN3相比，宽度是一个更深的架构，它具有48个变压器块而不是24个（请参见下面的图14）。图14：QWEN3的QWEN3变压器块编号在GPT-OSS-20B中是两次。 GPT-oss的结构更为“更宽”：嵌入尺寸（EMB）编辑的尺寸为2880，而Qwen3是2048年。中间专业层的投影大小（即FeedForward网络）也是2880，也是2880，Qwen3和Qwen3是768。按嵌入式大小。基于参数的总数是固定的，它更好，“更深”或“更宽”？一项拇指政策S：更深层次的模型在表达方面更灵活，但是训练更容易受到不稳定的影响（梯度爆炸/谨慎），这正是RMSNOMM试图缓解残留/快捷连接的问题。由于更好的相似性，推理时，广泛的体系结构通常会更快。成本是更高的视频记忆使用。 2。与大量“小专家” GPT-Oss相比，少数“大型专家”的专家较少（32位比128个），每个令牌被激活的专家较少（4 vs 8）；但是，单一的GPT-OSK专家比QWEN3专家更大且“更广泛”。这很有趣，因为最近的趋势往往是“越来越小”的专家。在MOE中，Deviceek角色中有很多例子。图15：本文的注释图“ DeepSeekmoe：成员专家Mentem的Finic Experter专家”与DeepSeek不同。 GPT-oss和Qwen3均未采用“共享专家”设计。客观地说，GPT-A更少SS-20B专家，可能仅仅是因为其模型较小。观看GPT-OS-1220B版本（请参见下面的图16），当其他设置保持不变时，它确实添加了专家和层数。图16：比较两个GPT-oss体系结构，120B模型仅扩展了变压器块的数量和专家的数量。但是，尺寸仅具有两种尺寸的层数和专家数量。 QWEN3的多阶段MOE模型（见图17）将与在更多方面的扩展成正比。图17：QWEN3 3不同模型中的架构变化。注意和注意力偏见正在下沉GPT-OSL和QWEN3都是GQA的用途（查询组注意）。主要区别在于，GPT-oss使用彼此的滑动窗口的注意来限制上下文。但是有一个细节引起人们的注意：GPT-OS似乎使用偏见术语与注意力重量。图18：注意力层使用D之后的GPT-oss模型GPT-2单元的探测，偏置项很少在这里看到，通常被认为是多余的。根据最近的角色，数学至少已被证明是k_proj；证据经验的经验也表明，偏见几乎没有差异。图19：显示了从头开始训练模型时的平均测试和无偏单元的平均测试。另一个细节是图18中代码中的水槽的定义。注意nks）通常是指一些特殊的，通常参加了进入订单开始的令牌。它们的作用是稳定注意力的机制，这在悠久的情况下特别有用。在GPT-OSL的实施中，注意的凹陷不是真实的令牌，而是头部（每个头）学到的偏置逻辑，直接添加到注意力标记中。图20：对GPT-oss的注意；基于拥抱面孔代码的有趣的小知识1。培训概述有关规模的同样信息在GPT-oss培训集的算法上。下面摘录了模型卡（1）和公告（2）的最关键线索：GPT-Oss使用我们最先进的培训和培训后技术进行培训[...]（1）；培训持续约210万小时的H100GPU，其中GPT-OS-20B降低了约10倍（1）；该过程包括一个精致修复的阶段和高级计算研究阶段[...]（2）；数据是主要英语和简单的文本，侧重于STEM，编程和常识（2）。从这里我们可以看到GPT-oss是一种认可模型。它的训练量为210万h100小时，与DeepSeek V3非常相似（27.88亿H800小时）。不幸的是，QWEN3培训时间尚未公开。 GPT-oss训练时间合并了RIN的管理研究，并进行了推理推理的指示和研究；虽然DeepSeek V3只是一个预训练的基础，而DeepSeek R1进行了训练。 2。强度OF识别如上所述，GPT-OS是识别的模型。特殊的是通过推理来衡量和缩回的训练，使用户可以调整理解力。具体而言，GPT-oss可以接受系统提示中的“推理工作：低/中/高”命令（请参见下面的图21），并直接影响响应的长度和准确性。图21：GPT-oss模型在各种概念力作用下（来自型号卡的注释图）的响应时间和质量的长度可以轻松平衡成本，计算的强度和准确性。 3。MXFP4优化：小小的细节，一个有趣的透明惊喜Openai为MoE专家发布了MXFP4音量解决方案的GPT-oss模型。 MXFP4的优化使该模型可以在单个卡设备上运行。它可以将GPT-OS-1220B放入单个80GB H100或更新的GPU中；虽然20B小型型号也可以放置16GB视频内存。 GPT-oss型号可能与旧硬件一起运行，但没有支持MXFP4，因此视频记忆使用较高。 4。4。根据GPT-Oss公告发布的推理基准测试的基准测试，GPT-Oss与OpenAI和QWEN3的自开发的封闭起源相当（请参见下面的图22）。图22：基准的主要图表来自官方的GPT-Oss公告帖子。 20B的GPT-OS-1 ang数据来自官方纸张，QWEN3的数量来自Qwen3的官方仓库。值得注意的是，GPT-OSS-1220B的大小约为QWEN3 A235B-A22B-INCKINGING-25的一半，并且可以在一张卡上操作。当然，基准标记不等于真实的可用性。根据最近几天的试验，GPT-Oss具有良好的功能，但也有许多人注意到幻觉的趋势相对较高（在型号卡中也提到）。它可能与诸如数学，难题和代码之类的推理活动中的培训重点有关，导致了特定c“一般的健忘”。但是，由于GPT-oss是专门针对该工具的工具，因此由于开源LLM工具的集成正在衰老，因此优先考虑提高“识别能力”而不是“内存”，因此这种不足可能会逐渐降低未来的影响。 5。GPT-oss和gpt-5 OpenAI尽快在GPT-oss之后已期待已久的GPT-5的Pinalack。有趣的是，GPT-oss模型与OpenAI的旗舰产品之间的接近性在基准性能方面令人惊讶（见图23）。图片23：GPT-oss数据源自官方卡榜单和公告，QWEN3数据源自官方的Qwen3-Coder仓库。当然，基准是实用的。因为使用的样本很少，所以完成还为时过早。但这无疑是开放资源和本地/私人部署爱好者的好时机。参考：https：//magazine.sebastianraschka.com/p/from-bpt-2-t-t-t-t-t-m-pranistion-the-the-the-th---- 特别声明：内容aBove（包括照片或视频（如果有））已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。注意：上面的内容（包括照片和视频（如果有））已由NetEase Hao用户上传和发布，该用户是社交媒体平台，仅提供信息存储服务。