新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 韩娱还在诞生更多金赛纶
  • 特斯拉FSD在华普及的难题不只是本地数据
  • 澳门正版传真内部资料:揭秘澳门传真行业的秘密与机遇
  • AI翻译技术已走向大规模商用,应用场景覆盖多个关键领域
  • 邦达亚洲:美元回落油价反弹 美元加元小幅收跌
  • 云南富源回应“岔河水库死鱼”事件: 初步研判与水体缺氧有关
  • 王中王一码一特:一家四口的幸福密码
  • 千元国货包袋的黄金时期到来了吗?
  • 澳门最精准的旅游攻略:最精准图片带你领略魅力澳门
  • 电厂 | 京东、美团为什么抢着为你送外卖?
  • 机票搜索热度飙升,透过数据看五一假期旅游热度
  • 专访|攸佳宁:手机只是矛盾导火索,重要的是看见孩子的内心
  • 两类特别国债首发落地,MLF加量操作 政策工具协同发力呵护流动性
  • 牧原股份一季度归母净利润44.91亿元,同比扭亏为盈
  • 《家里家外》走红、刘晓庆入局,短剧真能精品化吗?
  • 关键词: