首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 美股七巨头一夜市值蒸发近6万亿元,创下12年以来最大单日跌幅|股价|谷歌|科技股|特斯拉|标普指数|标普500指数
• 新型AI模型可通过血检识别多种神经退行性疾病|血液|帕金森病|功能障碍|阿尔茨海默病
• 估值超200亿元,百川智能完成50亿元A轮融资,北上深国资入局 | 36氪独家|腾讯|搜狗|王小川|a轮融资|b轮融资
• 活力凸显 潜力无限——当前中国消费形势述评
• “最懂苹果”分析师郭明錤:苹果将停产iPhone 17 Plus|苹果公司|财务会计|财务报表|智能手机|apple|新款iphone
• 美股七巨头一夜市值蒸发近6万亿元,创下12年以来最大单日跌幅|股价|谷歌|科技股|特斯拉|标普指数|标普500指数