首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

通义实验室推出通用智能体评测基准PawBench|人工智能模型|pawbench

6月5日,通义实验室推出评测基准PawBench,v1.0版本已开源。它面向个人助理与通用智能体场景,将底座模型与运行框架(Harness)纳入同一评测体系。据介绍,PawBench不是单纯做一个模型排行榜,而是把“模型、Harness、任务”三者放在一起做交叉评测。

📚 相关阅读

• 机构:一季度全球OLED智能手机面板出货量约2亿片 同比增长约4.7%|oled|平均售价
• 腾讯云率先支持Hermes Agent云端快速部署|服务器|知名企业|agent|hermes
• 中央网信办:将发布《人工智能应用伦理安全指引(1.0版)》
• Kimi即将完成20亿美元融资 DeepSeek被曝投后估值或达450亿美元|美团|龙珠|kimi|投资机构|知名企业|独家财务顾问|deepseek
• 中汽协:3月新能源汽车销量同比增长1.2%|新车|新能源乘用车
• 动力电池专委会召开2026年第一次标准评审会议|工业协会|工作委员会