首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 我国成功发射千帆星座第七批组网卫星
• 轨道AI算力愿景曝光!SpaceX牵手Anthropic|航天早参|spacex|埃隆_马斯克|上海商业航天大会|anthropic
• CoreWeave:OpenAI是“极佳的合作伙伴”,但并非唯一|微软|谷歌|软银|ibm|知名企业|openai
• 特斯拉超级充电桩全球突破80000根|特斯拉(公司)
• 盘后猛涨19%,英特尔Q2营收指引远超预期,吃下AI智能体红利|英伟达|处理器|cpu
• 4个月连融数轮,简智机器人跻身具身智能无本体数据吸金王|算法|大模型