首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 5G网络建设加速数字经济基础设施完善
• 鼓励平台发布榜单、大力支持海外仓,6部门推进电商高质量发展|商务部|电子商务|跨境电商|实体经济|电商平台
• 新石器上线AI智能体NeoClaw|neoclaw
• 200万上下文 性能提升40% ChatGPT-6要来了?
• 雷克萨斯将在华生产全新纯电车型,并销往日本?官方:不予置评|新车|广汽丰田|豪华品牌
• 商务部电子商务司负责人解读《关于更好服务实体经济 推进电子商务高质量发展的指导意见》|跨境电商