在今年的CNCC大会上,智谱科技的一项新技术引发了广泛关注——AutoGLM,一个能够模拟用户在手机和网页上操作的智能助手。这一创新不仅展示了AI在日常生活中的应用潜力,还标志着智谱在通往通用人工智能(AGI)道路上的又一重要进展。
智谱发布的AutoGLM功能强大,现场实测中,用户只需一句话即可指令AI在美团上点咖啡,全程无需人工干预,除了付款环节。智谱还展示了其最新的GLM-4-Voice情感语音模型,该模型在情感表达、语音控制等方面表现出色,甚至能模仿多种方言和情绪。
在CNCC的圆桌论坛中,专家们讨论了AGI的实现路径,强调了多模态、推理与自我学习的重要性。智谱的AutoGLM正是其在工具能力上的新探索,也是其AGI实现路径的一部分。
智谱的清言情感语音助手在多方面实现了突破,如响应速度、情绪感知、情感共鸣等。在实测中,该助手不仅能进行英语陪练,还能切换至日语,甚至能模仿多种方言,如北京腔、台湾腔、东北腔和粤语。
技术方面,AutoGLM基于智谱的GLM-4大模型家族,特别是新发布的GLM-4-Voice情感语音模型。该模型采用端到端的设计,避免了传统级联方案中的信息损失和误差积累,拥有更高的建模上限。
智谱在探索AGI的过程中,经历了从单一模态到多模态的转变。其AGI路径注重文本大模型的能力提升,同时逐步融入图像、视觉、语音等模态,并持续迭代代码模型、视频生成模型等。
智谱CEO张鹏介绍,智谱将人工智能分为L1到L5五个等级,其中L4和L5体现了AI的自我学习能力。目前,智谱发布的手机助手已达到L3的工具使用阶段,并计划在本月底推出升级版的视频生成模型CogVideoX-Plus。
智谱内部认为,目前距离AGI的实现还有很长的路要走。他们根据大脑的能力,将AGI的技术维度分为了多个方面,包括多模态感知与理解能力、长短期记忆能力、深度思考与推理能力、情感与想象力等。