据最新消息,谷歌正筹备在12月展示其对大型动作模型Rabbit的初步构想,该项目内部代号为Project Jarvis。Jarvis旨在通过智能技术帮助用户完成日常网络任务,如研究收集、产品购买及航班预订。
据悉,Jarvis将搭载谷歌Gemini的未来版本,特别针对Chrome浏览器进行了优化,需与网络浏览器配合使用。
Jarvis的工作原理是通过截取和解析屏幕截图,自动执行点击按钮或输入文本等操作,以简化用户的网络任务流程。然而,目前该工具在执行操作间仍需几秒钟的等待时间。
其他科技巨头也在积极探索类似技术。微软已推出Copilot Vision,可让用户与网页进行交互;Apple Intelligence则预计明年将实现屏幕内容识别与跨应用操作执行。
Anthropic也发布了Claude测试版更新,而OpenAI据传也在开发类似功能。值得注意的是,谷歌12月展示Jarvis的计划仍有可能变动,公司可能会先向少量测试人员开放该功能以进行漏洞排查。