微软发布 Windows Agent Arena 基准测试框架,评估 AI 代理运行主流 Windows 应用程序的性能
编辑日期:2024年09月15日
微软表示,该基准框架 AI Agents 展示了在使用主流 Windows 应用方面的能力和速度,包括 Microsoft Edge 和谷歌 Chrome 浏览器、Visual Studio Code 等编程应用,以及预装的 Windows 应用如记事本、时钟和画图等,同时还涵盖了 VLC 等主流媒体播放器。
好的,以下是微软官方博文的部分内容翻译:
以下为微软官方博文的部分内容翻译:
(如果提供了具体的段落或句子,可以进行更准确的翻译。请将需要翻译的内容附上。)
如果需要翻译的具体内容,请提供原文,以便我能够更好地帮助你。
我们的基准测试同样具备可扩展性,能够在 Azure 上无缝并行运行,从而在最短20分钟内完成全面评估。
微软研究院也开发了自己的多模态代理人 Navi,并在 Windows Agent Arena 基准测试中进行了试验。
它被要求根据特定的文本提示执行任务,例如:“你能把当前我正在浏览的网页转换成PDF文件,并放到我的主屏幕上吗,就是那个桌面上?”结果显示,Navi 的平均任务成功率为 19.5%,这个成绩与人类的表现评分 74.5% 相比,仍然较低。
请提供参考地址。 或者,您可以尝试:“附上参考地址如下:” 或者 “参考地址为:”
具体的选择取决于上下文和您的个人风格。
大家在看
AI安装教程
AI本地安装教程
微软AI大模型通识教程
微软AI大模型通识教程
AI大模型入门教程
AI大模型入门教程
Python入门教程
Python入门教程
Python进阶教程
Python进阶教程
Python小例子200道练习题
Python小例子200道练习题
Python练手项目
Python练手项目
Python从零在线练习题
Python从零到一60题