AI 智能體,或自主智能代理,不僅是諸如賈維斯等科幻電影中的人類超級助手,也一直是現實世界中AI 領域的研究熱點。尤其是以GPT-4 為代表的AI 大模型的出現,將AI 智能體的概念推向了科技的最前沿。在此前爆火的斯坦福“虛擬小鎮”中,25 個AI 智能體在虛擬小鎮自由生長,舉辦了情人節派對;英偉達等提出的具身代理模型Voyager,也在《我的世界》中學會各種生存技能,闖出了自己的一片天;此外,能夠自主完成任務的AutoGPT、BabyAGI 和AgentGPT 等,也同樣引發了公眾的廣泛興趣和熱烈討論。甚至,前特斯拉AI 總監、回歸OpenAI 的技術大牛Andrej Karpathy 在一次開發者活動上透露,**每當有新的AI 智能體論文出現時,OpenAI 內部就會非常感興趣,並認真地進行討論**。儘管當前AI 智能體研究異常火熱,但**目前AI 行業缺乏一個系統化和標準化的基準來評估LLMs 作為代理的智能水平**。為此,來自**清華大學、俄亥俄州立大學、加州大學伯克利分校**的研究團隊便提出了首個系統性的基準測試——AgentBench,用來評估LLMs 作為智能體在各種真實世界挑戰和8 個不同環境中的表現(如推理和決策能力)。 研究结果显示,**顶级商业语言模型(如 GPT-4)在复杂环境中表现出色,与开源模型之间存在显著优势**。为此,研究团队建议,有必要进一步努力提高开源 LLMs 的学习能力。相關研究論文以“*AgentBench: uating LLMs as Agents*”為題,已發表在預印本網站arXiv 上。另外,**相關數據集、環境和集成評估包也已發佈在GitHub 上**。## **首個系統性基準測試**在以往的研究和實踐中,基於文本的遊戲環境已被用於語言代理的評估。然而,它們往往由於封閉的離散行動空間而受到限制,且其重點主要集中在模型的常識基礎能力上。最近,一些關於具身代理的嘗試採用了基於遊戲、圖形用戶界面(GUI)和室內場景的複雜多模態模擬器。然而,儘管這些模擬器很複雜,不能準確地反映出LLMs 在實際用例中的使用情況,且其多模態性質也給純文本LLMs 的快速評估帶來了障礙。此外,大多數代理的基準測試都集中在單一環境中,這限制了它們在不同應用場景中全面概述LLMs 的能力。在此次工作中,研究團隊在**操作系統(OS)、數據庫(DB)、知識圖譜(KG)、卡牌對戰(DCG)、情景猜謎(LTP)、家居(Alfworld)、網絡購物(WebShop )和網頁瀏覽(Mind2Web)**8 種不同的環境任務中,使用AgentBench 對25 個不同的語言模型(包括基於API 的模型和開源模型)進行了全面評估。测试结果显示,像 GPT-4 这样的顶尖模型能够处理各种各样的现实世界任务,而**大多数开源 LLMs 在 AgentBench 中的表现远远不及基于 API 的 LLMs**;甚至,最有能力的开源模型 openchat-13b-v3.2 也与 gpt-3.5-turbo 之间存在显著的性能差距。 儘管通過廣泛的對齊訓練,LLMs 不僅可以掌握傳統的NLP 任務,如問題回答、自然語言推理和文本摘要,而且還能展示出理解人類意圖和執行指令的能力,但它們在AgentBench 任務上(如行動的有效性、長上下文、多輪一致性以及代碼訓練)的表現卻相對落後。研究團隊表示,**未來還需要更多的工作來進行更加嚴格、系統的評估,並提供強大的開源工具來促進此類評估**,如不斷完善AgentBench,使其更加全面和包容,以及建立一個更為系統的LLMs 評估體係等。## **“自主”AI代理競賽正在席捲矽谷**AI 大模型的不斷進化催生了新型助手的誕生。當前,“自主”AI 代理的競爭激發了矽谷的熱潮。不僅吸引了個人開發者,還有巨頭公司如微軟和谷歌母公司Alphabet,以及眾多初創企業也踴躍參與其中。以初創公司Inflection AI 為例,該公司的聯合創始人Reid Hoffman 和Mustafa Suleyman 在播客中表示,他們正在開發一款個人助手,能夠充當導師,也能夠應對類似於安排航班積分和酒店等任務這樣的事務。MultiOn 公司開發者Div Garg 表示,其目標是將其發展為個人的AI 朋友,類似於虛擬助手“賈維斯”。他們希望這個代理能夠與個人的服務進行連接。Generally Intelligent CEO Kanjun Qiu 表示:“對人類來說很容易的事情,對計算機來說仍然非常困難,如為老闆安排一組重要客戶的會議。這需要非常複雜的推理能力,涉及到獲取每個人的偏好,解決衝突,同時還需要在與客戶合作時保持細緻入微。”Qiu 和其他四位代理開發者預測,第一批能夠可靠地執行多步驟任務並具備一定自主能力的系統將在一年內上市,重點關注編碼和營銷等垂直領域。微軟CEO Satya Nadella 曾在接受《金融時報》採訪時表示:“無論是微軟自家的Cortana,還是亞馬遜的Alexa 、谷歌助手、蘋果的Siri,都還不夠智能,未能達到最初的預期。”**拋開存在的擔憂不談,AI 代理已經展現出了巨大潛力和市場。 **雖然我們在探索和應用過程中可能會遇到一些挑戰,但正如歷史上許多創新一樣,隨著時間的推移,我們有望在不斷優化和完善中見證這些AI 代理為人類社會帶來積極而深遠的影響。
清華團隊領銜打造,首個AI agent系統性基準測試問世
AI 智能體,或自主智能代理,不僅是諸如賈維斯等科幻電影中的人類超級助手,也一直是現實世界中AI 領域的研究熱點。尤其是以GPT-4 為代表的AI 大模型的出現,將AI 智能體的概念推向了科技的最前沿。
在此前爆火的斯坦福“虛擬小鎮”中,25 個AI 智能體在虛擬小鎮自由生長,舉辦了情人節派對;英偉達等提出的具身代理模型Voyager,也在《我的世界》中學會各種生存技能,闖出了自己的一片天;此外,能夠自主完成任務的AutoGPT、BabyAGI 和AgentGPT 等,也同樣引發了公眾的廣泛興趣和熱烈討論。
甚至,前特斯拉AI 總監、回歸OpenAI 的技術大牛Andrej Karpathy 在一次開發者活動上透露,每當有新的AI 智能體論文出現時,OpenAI 內部就會非常感興趣,並認真地進行討論。
儘管當前AI 智能體研究異常火熱,但目前AI 行業缺乏一個系統化和標準化的基準來評估LLMs 作為代理的智能水平。
為此,來自清華大學、俄亥俄州立大學、加州大學伯克利分校的研究團隊便提出了首個系統性的基準測試——AgentBench,用來評估LLMs 作為智能體在各種真實世界挑戰和8 個不同環境中的表現(如推理和決策能力)。
相關研究論文以“AgentBench: uating LLMs as Agents”為題,已發表在預印本網站arXiv 上。另外,相關數據集、環境和集成評估包也已發佈在GitHub 上。
首個系統性基準測試
在以往的研究和實踐中,基於文本的遊戲環境已被用於語言代理的評估。然而,它們往往由於封閉的離散行動空間而受到限制,且其重點主要集中在模型的常識基礎能力上。
最近,一些關於具身代理的嘗試採用了基於遊戲、圖形用戶界面(GUI)和室內場景的複雜多模態模擬器。然而,儘管這些模擬器很複雜,不能準確地反映出LLMs 在實際用例中的使用情況,且其多模態性質也給純文本LLMs 的快速評估帶來了障礙。
此外,大多數代理的基準測試都集中在單一環境中,這限制了它們在不同應用場景中全面概述LLMs 的能力。
在此次工作中,研究團隊在**操作系統(OS)、數據庫(DB)、知識圖譜(KG)、卡牌對戰(DCG)、情景猜謎(LTP)、家居(Alfworld)、網絡購物(WebShop )和網頁瀏覽(Mind2Web)**8 種不同的環境任務中,使用AgentBench 對25 個不同的語言模型(包括基於API 的模型和開源模型)進行了全面評估。
测试结果显示,像 GPT-4 这样的顶尖模型能够处理各种各样的现实世界任务,而大多数开源 LLMs 在 AgentBench 中的表现远远不及基于 API 的 LLMs;甚至,最有能力的开源模型 openchat-13b-v3.2 也与 gpt-3.5-turbo 之间存在显著的性能差距。
研究團隊表示,未來還需要更多的工作來進行更加嚴格、系統的評估,並提供強大的開源工具來促進此類評估,如不斷完善AgentBench,使其更加全面和包容,以及建立一個更為系統的LLMs 評估體係等。
“自主”AI代理競賽正在席捲矽谷
AI 大模型的不斷進化催生了新型助手的誕生。當前,“自主”AI 代理的競爭激發了矽谷的熱潮。不僅吸引了個人開發者,還有巨頭公司如微軟和谷歌母公司Alphabet,以及眾多初創企業也踴躍參與其中。
以初創公司Inflection AI 為例,該公司的聯合創始人Reid Hoffman 和Mustafa Suleyman 在播客中表示,他們正在開發一款個人助手,能夠充當導師,也能夠應對類似於安排航班積分和酒店等任務這樣的事務。
MultiOn 公司開發者Div Garg 表示,其目標是將其發展為個人的AI 朋友,類似於虛擬助手“賈維斯”。他們希望這個代理能夠與個人的服務進行連接。
Generally Intelligent CEO Kanjun Qiu 表示:“對人類來說很容易的事情,對計算機來說仍然非常困難,如為老闆安排一組重要客戶的會議。這需要非常複雜的推理能力,涉及到獲取每個人的偏好,解決衝突,同時還需要在與客戶合作時保持細緻入微。”
Qiu 和其他四位代理開發者預測,第一批能夠可靠地執行多步驟任務並具備一定自主能力的系統將在一年內上市,重點關注編碼和營銷等垂直領域。
微軟CEO Satya Nadella 曾在接受《金融時報》採訪時表示:“無論是微軟自家的Cortana,還是亞馬遜的Alexa 、谷歌助手、蘋果的Siri,都還不夠智能,未能達到最初的預期。”
**拋開存在的擔憂不談,AI 代理已經展現出了巨大潛力和市場。 **雖然我們在探索和應用過程中可能會遇到一些挑戰,但正如歷史上許多創新一樣,隨著時間的推移,我們有望在不斷優化和完善中見證這些AI 代理為人類社會帶來積極而深遠的影響。