忘掉GPT吧AI代理才是未来的趋势

admin 发布于 2024-03-28 阅读(16)

  导语:初创公司和科技巨头们正尝试从提供文字帮助的聊天机器人,转向能够实际完成任务的AI代理。近期的演示包括一个名为Devin的AI编程助手和能够玩视频游戏的AI代理。

  上周,一家名为Cognition AI的初创公司发布了一个演示,引起了一些轰动。这个演示展示了一个名为Devin的人工智能程序,执行通常由高薪软件工程师完成的工作。

  像ChatGPT和Gemini这样的聊天机器人可以生成代码,但Devin走得更远,它能够规划解决问题的方案、编写代码,然后进行测试和实施。

  Devin的创造者将其标榜为“AI软件开发者”。当被要求测试通过不同公司托管访问Meta的开源语言模型Llama 2时的表现,Devin生成了一个项目的逐步计划,生成了访问API和运行基准测试所需的代码,并创建了一个总结结果的网站。

  虽然评估舞台上的演示总是很难,但Cognition展示的Devin处理了一系列令人印象深刻的任务。它在X平台上惊艳了投资者和工程师,获得了大量的认可,并且甚至激发了一些预测Devin很快将导致科技行业大量裁员的迷因。

  Devin只是我一直在关注的趋势中最新、最完善的例子——即AI代理的出现,这些代理不仅仅提供问题的答案或建议,还能采取行动解决问题。

  几个月前,我测试了一个名为Auto-GPT的开源程序,它尝试通过在个人电脑和网络上采取行动来执行有用的任务。最近,我又测试了另一个名为vimGPT的程序,以了解新AI模型的视觉技能如何帮助这些代理更高效地浏览网页。

  这些代理的实验给我留下了深刻的印象。然而,就目前而言,就像驱动它们的语言模型一样,它们还是会犯相当多的错误。当一款软件不仅生成文本,还在采取行动时,一个错误可能意味着彻底失败——并可能带来昂贵或危险的后果。

  将代理可以执行的任务范围缩小到比如说一套特定的软件工程任务,似乎是减少错误率的聪明方法,但仍然存在许多潜在的失败方式。

  不仅仅是初创公司在构建AI代理。本周早些时候,我写了一篇关于一个名为SIMA的代理,它由谷歌DeepMind开发,能够玩包括非常疯狂的游戏《山羊模拟器3》在内的视频游戏。

  SIMA通过观看人类玩家学会了如何执行600多个相当复杂的任务,比如砍倒一棵树或射击一颗小行星。最重要的是,即使在一个不熟悉的游戏中,它也能成功地执行许多这些动作。谷歌DeepMind称之为“通才”。

  我怀疑谷歌希望这些代理最终能在视频游戏之外的领域工作,也许能代表用户使用网络或为他们操作软件。但视频游戏为开发和测试代理提供了一个良好的沙盒环境,提供了复杂的环境,使它们可以被测试和改进。

  “让它们变得更精确是我们正在积极工作的方向,”谷歌DeepMind的研究科学家Tim Harley告诉我。“我们有各种各样的想法。”

  你可以预期未来几个月会有更多关于AI代理的新闻。谷歌DeepMind的CEO Demis Hassabis最近告诉我,他计划将大型语言模型与他的公司之前在训练AI程序玩视频游戏方面所做的工作相结合,以开发出更有能力和可靠的代理。

  “这绝对是一个巨大的领域。我们在这个方向上进行了大量投资,我想其他人也是如此。”Hassabis说。“当它们开始变得更像代理时,这将是这些系统能力的一个飞跃。”(Wired)

标签:  网页代理 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。