首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 特斯拉中国将FSD更名为特斯拉辅助驾驶|自动驾驶|道路测试牌照|特斯拉(公司)
• 科技撩人!华为新品成都首发,时代少年团现场助阵|成都市|知名企业
• 科技体制改革深化创新活力充分激发
• DeepSeek融资,改写所有人的估值|市销率|deepseek
• 宝通科技拿下AniShort海外独家代理权 AIGC工具与Token出海双线突破|aigc|战略布局|token|anishort
• 谷歌AI战略迎 “收获季”!Alphabet财报会实录:AI投资正驱动全业务增长|微软|云业务|人工智能|搜索业务|谷歌ai|知名企业|Google|alphabet