Sglang团队贡献4倍|官方帐户QBITAI开源框架提供100%可重现和稳定的RL培训!下图显示了基于QWEN3-8B的重复实验。两个种族和曲线为需要高精度可重复性的实验场景提供了可靠的保证,从而实现了结果的完美巧合。这是Sglang和Slime团队的最后一个开源的结果。最近,思维机器实验室(由前CTO Operai Mira Murati创立)发表了一篇文章,超出了LLM推理的不确定性,并指出问题的核心是该地段缺乏不变性。自从博客出版以来,该行业一直受到热烈处理。我们正在等待一个可以实现或进一步实现的开源推理引擎,可用于实现完全可重现的RL培训的稳定确定性推理。而Drownra,Sglang和Slime一起给出了答案。基于Think启动的不变批量操作员Sglang团队Ing Machines Lab通过自定义一组护理操作员和采样逻辑来实现完整的确定性推断。该实现还保持着与关键特征的兼容性,例如片段,CUDA图形,radix缓存和采样而不是大灰色。使用CUDA图形,Sglang可以达到2.8倍的加速度。与在思维机器实验室博客中告知61.5%的降级相比,Sglang在后端flashinfer和flashttenion 3中平均只有34.35%的性能退化。根据此,SGLANG和SLIME团队共同实施了完全可再现和稳定的RL培训,并完全分散了少数情况。问题的本质:为什么LLM推理不确定?获得的能力具有一致的大规模语言模型(LLM)推论的一致生产。例如,推论结果的不确定性是在线政策。它可以小鬼有效地将强化学习(RL)转换为RL -Line政治。但是,即使温度下降到零,由于使用动态批次和radix缓存,抽样尚未结论性。一个思维机器实验室工作室发现,不确定性的最大原因是批量的变化。即使用户反复发送相同的通知,由于应用程序在其他用户的请求中是很多,而且批量大小的差异会导致不确定的推断结果,因此退出也可以通过不同的执行进行更改。更具体地说,几个大小会影响核心还原分割过程(减少)。这可能会改变每个块的顺序和大小,这会导致不确定的出口,因为缺乏浮点操作。为了解决这个问题,他们实现了很多不变的批次(RMSNORM,MATMUL)。这些操作员还被启动为外部集成的支持库。基于思想的实验室工作NES,Sglang提供了推理解决方案LLM功能强大且高性能的确定性,它结合了不变的批处理运算符,CUDA图形,基数缓存和脱发件,并具有有效的性能。通过整体测试和增强学习培训实验,完全验证了它的确定性。关键改进包括整合思想机实验室的不变型运算符。实施一个警告操作员,而无需更改固定的KV分割大小。承认多个后端,包括FlashInfer,Flash 3和Triton完全兼容与推理性能相关的关键特征,例如碎片优先级,CUDA图形和基数caches。即使启用确定性推断,所有这些特征都是兼容的。根据要求(应用采样种子)接受采样种子的配置,并以温度为灰色 – 格雷 – 采样模式,或者也可以实现DE终止推理。实验结果的确定性评估引入了确定性测试,证明推断结果是否在不同的批次中保持一致。该测试包括三个子测验,且逐渐难以进行。单人:执行不同的批次大小的同一通知,以查看输出是否一致。混合:将不同类型的适应症(简短和长指示)结合在一起,以确保一致性。前缀:使用相同的长文本指示灯,但是使用不同的前缀长度随机进行批量测试,以测试是否可以在不同的执行中复制结果。下面介绍了50个采样测试的结果:数量表示每个子摩托车中观察到的唯一输出的数量(较低的值,更确定性)。使用三种常见的RL推理工作负载评估非确定性和确定性模式的OUT -OF -OF -LINE推理性能:测量端 – 到端延迟(256个具有不同条目/输出的应用程序)。测试结果表明,确定性推断良好,最高收益率在25%至45%之间控制,专利3闪存和闪光后端的平均性能下降了34.35%。大多数过载来自特里顿(Triton)编写的非优化地段的不变运算符。这表明仍然有很大的改进空间。团队观察到,确定性推理比通常的模式慢。因此,建议主要用于纯化和可重复性。 SGLANG团队的未来工作之一将专注于加速确定性推理,目的是将绩效差距降低到不到20%或与正常模式相媲美。如何使用sglang首选项:#LATEST MAIN BRANCH GITCLONEHTPS://GITHUB.COM/SGL-PROJEMT/SGLANG.GITDSGLANG.GITDSGLANG#INSTALL PYTHON PIP依赖依赖pip pip pip pip pip installation-e安装“ python [python [all] [all] [all]和安装sglang Server:Sglang Server:sglang Server:sglang for Mu-muad。为example,对于QWEN3-8B,在服务器的开头,只需添加推理确定性设计器参数即可。 python3-m sglanch.launch_server \ -operador qwen/qwen3-8b型号:不变批处理操作员是颈部是颈部性能瓶,因此它们将被重写以优化配置并提高性能。这对于加速RL推断也很重要。 MOE模型支持:目前,它与QWEN3-8B和CALL-3.1-8B等密集模型的确定性推断兼容。未来计划将支持混合专家(例如QWEN3-30B-A3B和DEEPSEEK-V3)的扩展。改进的主要缓存:基数树已得到改进,并且与更广泛的注意力运营商兼容,超过了3个后端的当前闪存限制。张紧器并行性:观察到TP1和TP2是确定性的,这可能是由于缺乏添加浮点的联合速率。尝试攀登更大的TP大小可能涉及修改减少运营商以实现确定性。灵活化集成:除了当前的警告后端外,还计划扩大对未来确定性推理的支持。 Sglang和粘液可再现训练能力的确定性推理正在积极改善。该团队真诚地接受用户和开发人员,以积极尝试提供宝贵的评论。用户的经验和建议促进了对这一关键特征的更大优化,并促进了确定性推理技术的发展。 [1]https://thinkingmachines.ai/blog/defeating-nondeterminism–in-llminference/§] https:/thudm.github.io/slime/_examples_synced/reproducibility/readme.html#reproducibilible [5] https://github.com/thudm/slime/370
特别声明:以前的内容(包括照片和视频(如果有),如果有)已收费并由Auto-Medios NetEase平台的用户发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。