AI-Agent深度:2025-Agent元年AI從L2向L3發(fā)展-東吳證券_第1頁
AI-Agent深度:2025-Agent元年AI從L2向L3發(fā)展-東吳證券_第2頁
AI-Agent深度:2025-Agent元年AI從L2向L3發(fā)展-東吳證券_第3頁
AI-Agent深度:2025-Agent元年AI從L2向L3發(fā)展-東吳證券_第4頁
AI-Agent深度:2025-Agent元年AI從L2向L3發(fā)展-東吳證券_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI

Agent深度(二)

:2025

Agent元年,AI從L2向L3發(fā)展證券研究報(bào)告·行業(yè)年度策略報(bào)告·傳媒互聯(lián)網(wǎng)增持(維持)

研究助理

:張文雨執(zhí)業(yè)證書編號(hào):S0600123070071聯(lián)系郵箱:zhangwy@證券分析師

:張良衛(wèi)執(zhí)業(yè)證書編號(hào):S0600516070001聯(lián)系郵箱:zhanglw@dw證券分析師

:周良玖執(zhí)業(yè)證書編號(hào):S0600517110002聯(lián)系郵箱:zhoulj@dwzq.2025年5月4日1.我們認(rèn)為

2025年是Agent元年:AI

正從

L2(推理者)向

L3(Agent/智能體)進(jìn)化,標(biāo)志著AI

從“思考”走向“行動(dòng)”。這一轉(zhuǎn)變由四大驅(qū)動(dòng)力促成:

①技術(shù)成熟度達(dá)到臨界點(diǎn):

強(qiáng)大的多模態(tài)基礎(chǔ)模型(能理解視覺信息如

GUI界面)和成熟的強(qiáng)化學(xué)習(xí)訓(xùn)練方法已準(zhǔn)備就緒

。②標(biāo)桿產(chǎn)品

的出現(xiàn):

行業(yè)領(lǐng)導(dǎo)者(如

OpenAI,Google,

Anthropic)推出了關(guān)鍵產(chǎn)品(如

Operator,DeepResearch),基準(zhǔn)測(cè)試(如

RE-Bench)顯示頂尖Agent在特定任務(wù)上的效率已可匹敵甚至超越人類專家

。③MCP協(xié)議的普及將促進(jìn)Agent

生態(tài)的互聯(lián)互通

。④市場(chǎng)需求驅(qū)動(dòng):

經(jīng)歷了大模型能力競(jìng)賽

(2023年)和初步應(yīng)用探索(2024年)后,市場(chǎng)(尤其是

B端)迫切需要AI

能夠落地解決復(fù)雜業(yè)務(wù)問題、自動(dòng)化多步驟流程,并帶來顯著的生產(chǎn)力提升,Agent

的出現(xiàn)恰好滿足了這一需求

。2.為什么要關(guān)注Agent?我們認(rèn)為其重要性在于:①深度自動(dòng)化:Agent

具有深度自動(dòng)化、指數(shù)級(jí)效率提升和成本優(yōu)化潛力,將人類從重復(fù)性勞動(dòng)中解放出來,聚焦更高價(jià)值的創(chuàng)造性工作

②通往AGI:Agent(L3)是通往通用人工智能(AGI)和具身智能的關(guān)鍵環(huán)節(jié)。③重塑互聯(lián)網(wǎng)入口:Agent

可能改變用戶獲取信息和完成任務(wù)的方式,挑戰(zhàn)傳統(tǒng)搜索引擎,并可能使操作系統(tǒng)、瀏覽器或“超級(jí)App”成為新的核心入口。我們預(yù)計(jì)入口級(jí)通用Agent

的競(jìng)爭(zhēng)將在

2025年下半年開啟

。3.Agent的競(jìng)爭(zhēng)格局是“巨頭環(huán)伺,新銳突破”:

①巨頭環(huán)伺:大型科技平臺(tái)(OpenAI,Google,微軟;國(guó)內(nèi)

BAT、字節(jié)、華為等)憑借模型、數(shù)據(jù)、

算力、生態(tài)優(yōu)勢(shì)主導(dǎo)通用Agent

和平臺(tái)生態(tài)的構(gòu)建

。②垂直機(jī)會(huì):垂直領(lǐng)域憑借深度領(lǐng)域知識(shí)和工作流整合仍有創(chuàng)新機(jī)會(huì),但長(zhǎng)期面臨通用Agent能力提升的威脅

。初期

AI應(yīng)用價(jià)值高度依賴模型能力,但簡(jiǎn)單的“淺層套殼”產(chǎn)品(即Wrapper

)缺乏壁壘,易被顛覆。真正的護(hù)城河在于復(fù)雜工作流的可靠編排、高質(zhì)量工具集成能力和深度領(lǐng)域知識(shí)。4.投資建議:①重視Agent

投資窗口:2025

年是布局Agent

領(lǐng)域的重要窗口期,需密切跟蹤基礎(chǔ)模型(尤其多模態(tài)、推理、規(guī)劃)、強(qiáng)化學(xué)習(xí)、工具調(diào)用可靠性、推理成本優(yōu)化以及標(biāo)準(zhǔn)化協(xié)議(如

MCP)的進(jìn)展。②長(zhǎng)期配置平臺(tái)巨頭:擁有強(qiáng)大基礎(chǔ)大模型、算力、數(shù)據(jù)和生態(tài)系統(tǒng)的大型科

技平臺(tái)公司是Agent

時(shí)代的核心受益者,最有可能主導(dǎo)通用Agent

的發(fā)展,并能整合或取代單一功能應(yīng)用,具備長(zhǎng)期配置價(jià)值。

例如海外的Google、微軟,以及與

OpenAI

、Anthropic深度綁定的公司;國(guó)內(nèi)的阿里、騰訊、字節(jié)(未上市)。

③關(guān)注垂直領(lǐng)域領(lǐng)跑者:在通用Agent

能力

尚未完全成熟之前,那些在特定垂直賽道已經(jīng)建立深厚領(lǐng)域知識(shí)壁壘、擁有清晰商業(yè)模式和客戶基礎(chǔ)的垂直Agent提供商具有較高的短期增長(zhǎng)潛力。

我們認(rèn)為知識(shí)工作領(lǐng)域(如編程、研究、法律)將是最先落地的場(chǎng)景,其中,編程領(lǐng)域會(huì)是最快落地、最先實(shí)現(xiàn)PMF和商業(yè)化的領(lǐng)域,已有成功案例(如

Cursor

、Devin)。其他垂直應(yīng)用也值得關(guān)注:我們總結(jié)了30家上市公司在垂類Agent方面的布局,其產(chǎn)品基本符合Agent定義且具有垂直領(lǐng)域的比較優(yōu)勢(shì)。例如出版校對(duì)(果麥文化)、電商外貿(mào)(焦點(diǎn)科技)、企業(yè)服務(wù)(創(chuàng)業(yè)黑馬)、美學(xué)設(shè)計(jì)(美圖公司)等。建議關(guān)注其利用AI

Agent

解決具體行業(yè)痛點(diǎn)的能力和商業(yè)化進(jìn)展

。5.風(fēng)險(xiǎn)提示:技術(shù)成熟度風(fēng)險(xiǎn),高成本風(fēng)險(xiǎn),商業(yè)模式不確定性風(fēng)險(xiǎn),競(jìng)爭(zhēng)加劇風(fēng)險(xiǎn)。2核心觀點(diǎn)一、

為什么說

2025年是Agent

元年?AI從

L2

L3進(jìn)化驅(qū)動(dòng)力:技術(shù)成熟度達(dá)到臨界點(diǎn);行業(yè)領(lǐng)導(dǎo)者推動(dòng),標(biāo)桿產(chǎn)品驗(yàn)證;市場(chǎng)需求驅(qū)動(dòng)定義:不是所有的AI

模型/產(chǎn)品都叫Agent;Agent

的四個(gè)必要構(gòu)成(缺一不可);Agent

的智能程度是有層次和梯度的二、Agent

為何重要?深度自動(dòng)化、指數(shù)級(jí)效率提升、解放人類生產(chǎn)力與創(chuàng)造力通往AGI

和具身智能的關(guān)鍵環(huán)節(jié)重塑互聯(lián)網(wǎng)流量入口格局預(yù)計(jì)入口級(jí)Agent

大戰(zhàn)將于

25H2開啟三、

競(jìng)爭(zhēng)格局:模型即產(chǎn)品,通用

Agent將由大廠主導(dǎo)Agent領(lǐng)域的競(jìng)爭(zhēng)維度模型即產(chǎn)品:爆款應(yīng)用背后是模型能力更新、淺層套殼產(chǎn)品終將被顛覆BigGiants:角逐AGI、通用

Agent和流量入口Nichemarket:垂直

Agent

長(zhǎng)期面臨通用Agent

的威脅、垂直Agent

的價(jià)值在于深耕領(lǐng)域知識(shí)、談?wù)?/p>

Cursor

的壁壘四、Agent將最先落地于知識(shí)工作(尤其是代碼)Agent

最先落地的行業(yè)和場(chǎng)景預(yù)測(cè)代碼/軟件開發(fā)領(lǐng)域的進(jìn)展與觀點(diǎn)法律AI

Agent

對(duì)比五、

投資建議六、

風(fēng)險(xiǎn)提示3目錄一、為什么說2025年是Agent元年?4OpenAI將AI發(fā)展階段分為L(zhǎng)1到L5五個(gè)階段。我們認(rèn)為,AI正從L2(推理者)向L3(Agent)進(jìn)化,Agent代表了AI從“思考”走向“行動(dòng)”的關(guān)鍵一步,是繼大模型之后的下一個(gè)重要發(fā)展階段和業(yè)界尋求的新突破口。驅(qū)動(dòng)力來自:技術(shù)、產(chǎn)品、需求。L1-聊天機(jī)器人

(Chatbot):以ChatGPT(2022年底發(fā)布)為代表,具備自然語言交互能力。機(jī)器直接輸出文字或回答。相較于機(jī)器學(xué)習(xí)時(shí)代,AIChatbot實(shí)現(xiàn)了“通用性”

,不再局限于特定場(chǎng)景或單一問題,而是能處理廣泛的語言任務(wù)。這是從基于規(guī)則、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、Transformer架構(gòu)一路發(fā)展過來的通用大模型階段。在這一階段,交互模式是主要是輸入-輸出模式,用戶提問,模型回答。L2-推理者

(Reasoner):具備更強(qiáng)的推理能力,能夠處理更復(fù)雜的問題。用戶能看見模型的推理過程。代表產(chǎn)品如OpenAI的o1系列、DeepSeekR1。相較于L1階段,引入了強(qiáng)化學(xué)習(xí)和思維鏈(CoT)技術(shù),模型在輸出最終答案前會(huì)進(jìn)行多步思考。L3-智能體

(Agent):能夠自主規(guī)劃和執(zhí)行復(fù)雜任務(wù)的智能體。具備記憶、規(guī)劃、工具使用和行為記憶四大核心能力。相較于L2階段,AI從被動(dòng)的“信息處理/推理”走向主動(dòng)的“與外部世界交互和執(zhí)行”。能調(diào)用工具(如瀏覽器、API)、操作軟件界面,形成“指令->思考->交互->觀察->再思考...”的閉環(huán)系統(tǒng)。L2推理者像人類一樣能夠解決

問題的AIL3智能體不僅能思考,還可以采取行動(dòng)的AI系統(tǒng)L4創(chuàng)新者能否協(xié)助發(fā)明創(chuàng)造的AIL5組織者可以完成組織工作的AIL1聊天機(jī)器人具有對(duì)話能力的AI 資料來源:synthetic,東吳證券研究所

5

我們認(rèn)為2025年將是Agent之年ChatGPT的出現(xiàn)

Deepseek

R1標(biāo)志著從L1到L2Operator標(biāo)志著從L2到L3驅(qū)動(dòng)力一:技術(shù)成熟度達(dá)到臨界點(diǎn)。支撐通用Agent發(fā)展的關(guān)鍵技術(shù)要素,特別是強(qiáng)大的多模態(tài)基礎(chǔ)模型(能理解視覺信息如屏幕內(nèi)容)和成熟的強(qiáng)化學(xué)習(xí)訓(xùn)練方法(能訓(xùn)練Agent與環(huán)境交互),已經(jīng)發(fā)展到相對(duì)成熟的階段。

從L0到L1:標(biāo)志GPT-3

、ChatGPT(2022年底)為標(biāo)志。背后的技術(shù)驅(qū)動(dòng)力是Transformer架構(gòu)的出現(xiàn),使得訓(xùn)練更大、更通用的語言模型成為可能。在這一階段,實(shí)現(xiàn)了

“通用性”

(Generality),模型不再局限于特定場(chǎng)景,而是能夠處理廣泛的自然語言任務(wù),像一個(gè)巨大的知識(shí)庫。從L0到L1

的技術(shù)演進(jìn)路徑 資料來源:electropages,東吳證券研究所

6

基于規(guī)則機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)transformerGPT-3chatgptWhy

Now?——技術(shù)成熟度達(dá)到臨界點(diǎn)預(yù)訓(xùn)練+微調(diào)強(qiáng)泛化自然語言生成能力依賴人工規(guī)則,靈活性差智能處理的數(shù)據(jù)量較少數(shù)據(jù)驅(qū)動(dòng),泛化能力增強(qiáng)分類固定量數(shù)據(jù)人對(duì)結(jié)果的反饋成為學(xué)習(xí)過程的一部分深度學(xué)習(xí)復(fù)雜數(shù)據(jù)處理能力提升自注意力機(jī)制并行計(jì)算

從L1到L2:L1到L2的技術(shù)演進(jìn),核心在于大模型基礎(chǔ)上的推理能力突破,涉及多步推理訓(xùn)練、檢索增強(qiáng)、邏輯融合等關(guān)鍵技術(shù),使AI從“會(huì)說”進(jìn)化到“會(huì)想”,實(shí)現(xiàn)更高層次的智能。從L1到L2的躍遷,是AI從“語言表達(dá)”到“認(rèn)知推理”的質(zhì)變,這為AI在科學(xué)發(fā)現(xiàn)、復(fù)雜決策、自動(dòng)規(guī)

劃等高價(jià)值場(chǎng)景的應(yīng)用奠定了基礎(chǔ)。技術(shù)突破包括:

多步推理訓(xùn)練:通過鏈?zhǔn)剿季S(Chain-of-Thought,CoT)等方法,訓(xùn)練模型在給出答案前進(jìn)行多輪、分步驟的推理。

檢索增強(qiáng)生成(RAG):結(jié)合外部知識(shí)庫,提升模型的事實(shí)一致性和推理深度,減少“幻覺”。

更高質(zhì)量的數(shù)據(jù)與反饋機(jī)制:采用專家數(shù)據(jù)、復(fù)雜問題集和強(qiáng)化學(xué)習(xí)等方式,持續(xù)優(yōu)化模型的推理表現(xiàn)L1

ChatbotL2Reasoner主要能力自然語言生成復(fù)雜推理與決策技術(shù)核心大規(guī)模transformer預(yù)訓(xùn)練思維鏈CoTRAGMoE等代表模型GPT-3ChatGPTO1Deepseekr1Strawberry等 資料來源:datahub,東吳證券研究所

7

Why

Now?

——技術(shù)成熟度達(dá)到臨界點(diǎn)AlphaGoZero快速超越了AlphaGo

從L2到L3:關(guān)鍵的技術(shù)要素(強(qiáng)大的多模態(tài)基礎(chǔ)模型和成熟的強(qiáng)化學(xué)習(xí)訓(xùn)練方法)

已經(jīng)趨于成熟,達(dá)到了可以支撐通用

Agent發(fā)展的階段。

OpenAI在2025年1月發(fā)布Operator,更是印證和點(diǎn)燃了這一行業(yè)共識(shí)。具體來說,關(guān)鍵的成熟要素包括:?強(qiáng)大的基礎(chǔ)模型:像Claude

Sonnet3.5這樣強(qiáng)大的、原生的多模態(tài)基礎(chǔ)模型已經(jīng)出現(xiàn)。這些模型具備了足夠好的視覺理解、語言

理解和基礎(chǔ)推理能力,能夠“看懂”圖形界面(如網(wǎng)頁、操作系統(tǒng)界面)

,這是構(gòu)建基于GUI(圖形用戶界面)的Agent的前提。

而在過去(例如OpenAI在2016年嘗試類似項(xiàng)目時(shí))

,缺乏這樣強(qiáng)大的基礎(chǔ)模型是導(dǎo)致失敗的關(guān)鍵原因。?

成熟的強(qiáng)化學(xué)習(xí)技術(shù)與框架:以強(qiáng)化學(xué)習(xí)為核心的

Post-training技術(shù)在2024年通過O1

、O3等模型在純文本領(lǐng)域被證明是極其有效

的,能夠顯著激發(fā)和提升基礎(chǔ)模型的深層推理和規(guī)劃能力。行業(yè)將這種成功的范式應(yīng)用到多模態(tài)領(lǐng)域,以訓(xùn)練出能夠與環(huán)境交互、

執(zhí)行任務(wù)的Agent。 資料來源:機(jī)器之心,澎湃新聞,東吳證券研究所

8

Why

Now?

——技術(shù)成熟度達(dá)到臨界點(diǎn)o3模型和

o4-mini模型在數(shù)學(xué)和代碼能力上表現(xiàn)出色過去五年AI持續(xù)刷新各類排行榜工具底層模型核心技術(shù)自主性級(jí)別多模態(tài)能力OpenAIOperator定制CUA模型瀏覽器自動(dòng)化、視覺理解高(網(wǎng)頁交互)強(qiáng)(視覺理解)ManusClaude

Sonnet3.7多智能體架構(gòu)、Linux沙盒高(跨領(lǐng)域任務(wù))強(qiáng)(文本、圖像、代碼)Devin未公開遠(yuǎn)程執(zhí)行環(huán)境、規(guī)劃系統(tǒng)高(軟件開發(fā))中(主要文本和代碼)Cursor多個(gè)大模型代碼上下文理解、智能補(bǔ)全中(輔助編碼)弱(主要代碼處理)AutoGPT可定制LLM任務(wù)分解、互聯(lián)網(wǎng)連接高(自主執(zhí)行)中(文本和圖像)Windsor.ai專有AI模型數(shù)據(jù)歸因、營(yíng)銷分析中(數(shù)據(jù)處理)弱(主要結(jié)構(gòu)化數(shù)據(jù))DeepResearchGemini

1.5Pro多步驟研究、網(wǎng)頁瀏覽中(研究執(zhí)行)強(qiáng)(文本、圖像、PDF)ChatGPTCanvasGPT-4代碼編輯、多文件管理低(輔助編輯)弱(主要代碼處理)驅(qū)動(dòng)力二:行業(yè)領(lǐng)導(dǎo)者推動(dòng),標(biāo)桿產(chǎn)品驗(yàn)證。

OpenAI

、Anthropic

、Google等頭部公司發(fā)布關(guān)鍵產(chǎn)品(如Operator,DeepResearch)和技術(shù)協(xié)議(如MCP),并投入研發(fā),起到了引領(lǐng)和示范作用。相對(duì)成型的Agent產(chǎn)品開始涌現(xiàn)(例如Manus

、AutoGLM

、Genspark等),驗(yàn)證了技術(shù)可行性,并點(diǎn)燃了行業(yè)共識(shí),標(biāo)志著Agent從設(shè)想走向相對(duì)成熟的產(chǎn)品階段。Why

Now?——行業(yè)領(lǐng)導(dǎo)者推動(dòng),標(biāo)桿產(chǎn)品驗(yàn)證 資料來源:lamatic,智通財(cái)經(jīng),新智元,東吳證券研究所

9

2024年的RE-Bench基準(zhǔn)測(cè)試顯示:在2小時(shí)短時(shí)限內(nèi),頂尖AI

Agent得分是人類專家的4倍;但將時(shí)間放寬到32小時(shí),人類表現(xiàn)則反超部分Agent

。這表明Agent在特定任務(wù)上已能匹敵人類專家,且更快、更經(jīng)濟(jì),但人類在長(zhǎng)時(shí)策略上仍有優(yōu)勢(shì)。Why

Now?——行業(yè)領(lǐng)導(dǎo)者推動(dòng),標(biāo)桿產(chǎn)品驗(yàn)證 資料來源:斯坦?!?025AIIndexReport》,東吳證券研究所

10

在MCP出現(xiàn)之前agent的挑戰(zhàn)

MCP的普及有助于促進(jìn)互聯(lián)互通①接口各異:每個(gè)工具、每個(gè)數(shù)據(jù)

源都有自己獨(dú)特的API接口或交互

方式。②定制開發(fā)成本高:Agent開發(fā)者

需要為每一個(gè)想要連接的工具編寫特定的適配代碼,以理解該工具的輸入輸出格式和調(diào)用邏輯。同樣,工具開發(fā)者如果想讓自己的服務(wù)被不同的Agent調(diào)用,也可能需要適

配多種不同的Agent框架。③生態(tài)割裂:這種點(diǎn)對(duì)點(diǎn)的、定制

化的連接方式,導(dǎo)致整個(gè)生態(tài)系統(tǒng)是割裂的。AgentA可能只能使用它

專門適配過的工具集X,而AgentB只能使用工具集Y,它們之間難以共享或調(diào)用對(duì)方生態(tài)中的工具,形

成了“數(shù)據(jù)孤島”和“能力孤島”

。①建立“通用語言”:MCP提供了一套標(biāo)準(zhǔn)化的規(guī)則和格式,定義了Agent(通過MCPClient)如何向工具(MCPServer)發(fā)出請(qǐng)求、傳遞參數(shù),以及工具如何返回結(jié)果。這就像為AI

Agent和外部

工具之間建立了一種通用的“交流語言”。②降低開發(fā)與集成復(fù)雜度:Agent開發(fā)者不再需要為每個(gè)工具編寫定制化的適配器。只需要讓Agent支持MCP協(xié)議,理論上就能與任何同樣支持MCP的工具進(jìn)行交互。工具/數(shù)據(jù)源提供者只需將自己的服務(wù)通過一個(gè)MCPServer暴露出來,就能被所有支持MCP的Agent發(fā)現(xiàn)和調(diào)用,降低了接入AI生態(tài)的門檻。就像USB-C統(tǒng)一了

各種設(shè)備的物理連接和數(shù)據(jù)傳輸標(biāo)準(zhǔn)一樣,MCP旨在統(tǒng)一Agent與

工具的“數(shù)字連接”。

③促進(jìn)互操作性,催化生態(tài)系統(tǒng)繁榮:當(dāng)Agent和工具都遵循同一標(biāo)準(zhǔn)時(shí),它們之間的互操作性大大增強(qiáng)。這意味著用戶或開發(fā)者可以更自由地組合來自不同提供商的模型、Agent框架和工具,構(gòu)建出更強(qiáng)大、更靈活的解決方案,打破了原有的供應(yīng)商鎖定或生態(tài)壁壘。標(biāo)準(zhǔn)化是生態(tài)繁榮的基礎(chǔ)。MCP的普及將鼓勵(lì)更多開發(fā)者參與Agents生態(tài),形成一個(gè)更加開放、組件化、可互相協(xié)作的Agent生態(tài)系統(tǒng)。在MCP出現(xiàn)之前,Agent

想利用外部工具或數(shù)據(jù)源(例如調(diào)用一個(gè)API、查詢數(shù)據(jù)庫、讀取Slack消息、操作某個(gè)軟件),面臨著巨大挑戰(zhàn):接口各異、定制開發(fā)成本高、生態(tài)割裂。MCP的普及有助于推動(dòng)Agent行業(yè)互聯(lián)互通。MCP

(ModelContextProtocol,模型上下文協(xié)議),是由Anthropic提出的一個(gè)開放協(xié)議,旨在統(tǒng)一大型語言模型(LLM)/Agent與外部工具、數(shù)據(jù)源之間的通信方式。MCP通過提供一個(gè)開放、統(tǒng)一的通信標(biāo)準(zhǔn),可以解決Agent與外部世界交互的碎片化和高成本問題。它的普及將極大地降低集成門檻,增強(qiáng)不同模型、Agent和工具間的互操作性,催生出一個(gè)更加繁榮、開放和互聯(lián)互通的Agent生態(tài)系統(tǒng),最終賦能更強(qiáng)大、更通用的AIAgent應(yīng)用。Why

Now?——MCP的普及助推Agent互聯(lián)互通 資料來源:36氪pro

,newline,東吳證券研究所

11

MCP模型2模型3外賣外賣地圖地圖模型1githubgithub模型2模型3模型1MCP模式傳統(tǒng)模式和其他工具調(diào)用方式(

FunctionCalling,

A2A,BrowserUse)相比,MCP的優(yōu)勢(shì)是什么?——通用性、

互操作性、低門檻1

、FunctionCalling是

OpenAI

的早期嘗試,開發(fā)者在調(diào)用

LLMAPI

時(shí)可以定義一組可用的函數(shù)(工具)。當(dāng)用戶需要執(zhí)行某個(gè)功能時(shí),模型不會(huì)直接執(zhí)行,而是會(huì)輸出一個(gè)包含函數(shù)名和所需參數(shù)的JSON對(duì)象。開發(fā)者接收到這個(gè)對(duì)象后,

自己編寫代碼去執(zhí)行相應(yīng)的函數(shù),并將結(jié)果返回給模型,讓

模型繼續(xù)生成回復(fù)。Functioncalling

的缺點(diǎn)是,沒有定義一個(gè)通用的、跨平臺(tái)、跨模型的標(biāo)準(zhǔn),每個(gè)開發(fā)者都需要根據(jù)

OpenAI

的規(guī)范來實(shí)現(xiàn)。2

、MCP

旨在建立一套通用的協(xié)議或規(guī)范,來定義Agent如何發(fā)現(xiàn)、理解和調(diào)用各種工具,以及工具

如何返回結(jié)果。相較于

FunctionCalling

,MCP的優(yōu)勢(shì)在于:①統(tǒng)一度量衡:

MCP就像是為工具調(diào)用設(shè)定了國(guó)際標(biāo)準(zhǔn)(如米、千克),取代了之前各種自定義、不兼容的“度量方法”(類似

FunctionCalling

的非標(biāo)準(zhǔn)化狀態(tài))。②互操作性

&

降低門檻:

有了統(tǒng)一標(biāo)準(zhǔn),開發(fā)者開發(fā)的Agent

可以更容易地調(diào)用任何遵循

MCP

規(guī)范的工具,反之亦然。工具開發(fā)者只需支持

MCP,就能被眾多Agent使用。這大大降低了工具集成和生態(tài)構(gòu)建的門檻。3

、A2A

(Agent-to-Agent)是Google提出的概念,聲稱不僅能讓Agent調(diào)用工具(Tool),還能實(shí)現(xiàn)

Agent

與Agent

之間的直接交互。但我們認(rèn)為這其實(shí)是概念冗余:從工程角度看,一個(gè)Agent

本身也可以被封裝成一個(gè)符合

MCP

規(guī)范

Tool。因此,通過

MCP

協(xié)議,已經(jīng)可以間接實(shí)現(xiàn)Agent

調(diào)用另一個(gè)Agent(作為工具)。A2A并沒

有帶來根本性技術(shù)突破,更像是一種“KPI工程”或爭(zhēng)奪標(biāo)準(zhǔn)化話語權(quán)的戰(zhàn)略行為,而非必要的技術(shù)

創(chuàng)新。Why

Now?——MCP的普及助推Agent互聯(lián)互通 資料來源:36氪pro

,dailydoseof

data

science,東吳證券研究所12

A2A可以融入到MCP框架中A2A的原理和MCP類似和其他工具調(diào)用方式(

FunctionCalling,

A2A,BrowserUse

)相比,MCP的優(yōu)勢(shì)是什么?——通用性、互

操作性、低門檻4

、BrowserUse

Agent

能夠像人一樣操作瀏覽器,瀏覽網(wǎng)頁、提取信息、填寫表單、點(diǎn)擊按鈕等。但需要明確的是,BrowserUse和MCP并不互斥。Browseruse的驅(qū)動(dòng)方式分為兩種:MCP驅(qū)動(dòng)和GUI操作。?MCP驅(qū)動(dòng)(更成熟、常用)

:這并不是讓AI真的“看”屏幕去點(diǎn)。而是通過調(diào)用瀏覽器提供的API(例如,獲取網(wǎng)頁

DOM

結(jié)構(gòu)、執(zhí)行

JavaScript、模擬網(wǎng)絡(luò)請(qǐng)求等),或者將這些瀏覽器操作封裝成符合

MCP

標(biāo)準(zhǔn)的工具,然后讓Agent

通過代碼調(diào)用這些工具來間接“操作”瀏覽器。現(xiàn)在很多所謂的BrowserUse

演示,其背后很可能就是這種基于代碼/API/MCP的方式。代表產(chǎn)品有BrowserUser和Manus。BrowserUse的準(zhǔn)確率較高?

GUI操作(尚不成熟):這是真正意義上

的“看屏幕、點(diǎn)鼠標(biāo)”。Agent接收瀏覽器窗口的截圖,通過視覺模型識(shí)別界面元

素(按鈕、輸入框等),計(jì)算出坐標(biāo),然

后通過模擬鼠標(biāo)點(diǎn)擊和鍵盤輸入來進(jìn)行操作。這種方式目前面臨準(zhǔn)確性和穩(wěn)定性的

瓶頸,因?yàn)橐曈X模型在精確識(shí)別和定位界

面元素(尤其是動(dòng)態(tài)或復(fù)雜的網(wǎng)頁)時(shí)容

易出錯(cuò),導(dǎo)致點(diǎn)擊錯(cuò)誤位置或無法完成操

作。

初創(chuàng)產(chǎn)品BrowserUse,由兩名學(xué)生

在4天時(shí)間內(nèi)開發(fā)完成,可以理解網(wǎng)

頁內(nèi)容。該初創(chuàng)公司2025年3月融資

1700萬美元。Why

Now?——MCP的普及助推Agent互聯(lián)互通 資料來源:InfoQ,東吳證券研究所

13

驅(qū)動(dòng)力三:市場(chǎng)需求驅(qū)動(dòng)?;仡橝I發(fā)展歷程,如果說2023年是“模型競(jìng)賽年”(以LLM本身性能競(jìng)賽為標(biāo)志),那么2024年則是“應(yīng)用探索年”。在2024年,涌現(xiàn)了大量基于

LLM的應(yīng)用,例如各種聊天機(jī)器人、寫作助手、簡(jiǎn)單的Copilot等。企業(yè)投入資源進(jìn)行嘗試,希望將AI能力融入業(yè)務(wù)流程。然而,2024年的應(yīng)用探索也暴露出一些局限性。許多應(yīng)用可能只是“薄封裝”,未能深入解決核心業(yè)務(wù)痛點(diǎn);或者其自動(dòng)化能力僅限于相對(duì)簡(jiǎn)單的單點(diǎn)任務(wù),難以應(yīng)對(duì)跨系統(tǒng)、多步驟的復(fù)雜工作流;帶來的生產(chǎn)力提升往往是局部的、漸進(jìn)式的,未能完全達(dá)到市場(chǎng)最初的高期望,也使得AI投入的ROI不夠清晰。進(jìn)入2025年,市場(chǎng)心態(tài)發(fā)生了轉(zhuǎn)變,特別是對(duì)于需要為AI投資尋求明確商業(yè)價(jià)值的ToB而言:①

從“嘗試”到“落地”:企業(yè)不再滿足于概念驗(yàn)證(PoC)或小范圍試點(diǎn)。他們需要能夠真正部署到生產(chǎn)環(huán)境中、穩(wěn)定可靠、能與現(xiàn)有系統(tǒng)集成、

并產(chǎn)生可衡量業(yè)務(wù)成果的AI解決方案。市場(chǎng)渴望看到AI技術(shù)從“玩具”或“助手”變成真正能干活、能解決問題的“員工”或“自動(dòng)化引擎”。②

渴望自動(dòng)化“更復(fù)雜任務(wù)”:簡(jiǎn)單的問答、基礎(chǔ)的內(nèi)容生成等“低垂果實(shí)”已被初步采摘。企業(yè)現(xiàn)在關(guān)注的是那些更耗時(shí)、更繁瑣、涉及多個(gè)步驟、

需要調(diào)用不同工具或信息源的復(fù)雜流程。例如,自動(dòng)完成一份包含數(shù)據(jù)搜集、分析、圖表生成和報(bào)告撰寫的市場(chǎng)研究報(bào)告;或者自動(dòng)化處理一個(gè)需要查詢訂單系統(tǒng)、物流系統(tǒng)、與客戶溝通并執(zhí)行退款操作的客服請(qǐng)求;亦或是完成整個(gè)軟件開發(fā)周期中的部分環(huán)節(jié)。這些是傳統(tǒng)自動(dòng)化或簡(jiǎn)單AI應(yīng)用難

以觸及的領(lǐng)域。③

期待“更顯著”的生產(chǎn)力提升:市場(chǎng)不再滿足于10%或20%的效率提升。他們期待的是數(shù)量級(jí)(例如數(shù)倍甚至更高)的生產(chǎn)力飛躍,能夠真正重塑工作方式、顯著降低成本、或者將人力解放出來從事更高價(jià)值的創(chuàng)造性或戰(zhàn)略性工作。而AI

Agent(智能體)的出現(xiàn),恰好精準(zhǔn)地契合了市場(chǎng)的這種新期待:①為復(fù)雜任務(wù)而生:Agent的核心能力(如自主規(guī)劃、記憶、工具使用)使其天然適合處理多步驟、需要與外部環(huán)境(如網(wǎng)頁、軟件、API)交互的復(fù)雜任務(wù),這正是市場(chǎng)所需要的。②強(qiáng)調(diào)“執(zhí)行”與“行動(dòng)”:不同于L1/L2主要停留在“對(duì)話”或“推理”,L3

Agent的設(shè)計(jì)目標(biāo)就是完成任務(wù)、采取行動(dòng),這與企業(yè)追求“落地”和實(shí)際效果的需求高度一致。③潛力巨大:通過自動(dòng)化更復(fù)雜、更耗時(shí)的工作流,Agent有望帶來指數(shù)級(jí)的效率提升和生產(chǎn)力解放,滿足市場(chǎng)對(duì)“顯著”價(jià)值回報(bào)的期待。 資料來源:東吳證券研究所

14

Why

Now?——市場(chǎng)需求驅(qū)動(dòng)當(dāng)前存在著大量的垂類Agent

。根據(jù)AI

AgentsDirectory統(tǒng)計(jì),截至2025/4/7,全球共有1211個(gè)AI

Agent,覆蓋57個(gè)不同類別,其中數(shù)量較多的有Agent

平臺(tái)(136個(gè))、生產(chǎn)力Agent(94個(gè)),客戶服務(wù)Agent(66個(gè)),個(gè)人助手Agent(50個(gè))等。雖然部分應(yīng)用可能并不屬于嚴(yán)格意義上的Agent(需要

有調(diào)用工具的能力和規(guī)劃執(zhí)行的能力等),但也能直觀上反映當(dāng)前應(yīng)用生態(tài)的復(fù)雜多樣。然而,這些都能被稱之為Agent嗎?AlAgentsPlatform

ProductivityVoiceAlAgentsPersonalAssistant DataAnalysis

ContentCreation

WorkfiowRecruitingAlAgentsAlVideoAgentsWebAlAgents

ImagesLeadGenerationSoftwareTesting

AlAvatarToolLibrariesAl

SecurityModel

Serving AlDocsAgents AlAgentMemory

Marketing

Al

ShoppingAgents TravelAlAgent

GamingAdsAlAgents NSFWAuthenticationAgents

EcommerceCodeGenerationMobileAppBuilders 資料來源:AI

AgentsDirectory,東吳證券研究所15

定義:不是所有的AI模型/產(chǎn)品都叫Agent按照行業(yè)分類的AI

Agent數(shù)量(截止25/4/7

)0

20

40

60

80100120140160AI

AgentlandscapeChatbotCopilot&Assistant半自動(dòng)Agent全自動(dòng)Agent對(duì)話能力√√√√推理能力√√√√長(zhǎng)記憶能力√√√調(diào)用工具的能力√√規(guī)劃的能力√關(guān)于Agent的討論往往存在定義混亂的問題。以至于一千個(gè)人眼中有一千個(gè)Agent。我們認(rèn)為,只有同時(shí)具備了這四項(xiàng)能力(對(duì)話能力、推理能力、長(zhǎng)記憶、工具調(diào)用),才能被稱之為Agent

。其中,工具調(diào)用是最核心的區(qū)分要素。只有對(duì)話能力的是

Chatbot;只有對(duì)話和推理能力的是

Reasoner。而工具調(diào)用又是建立在前三個(gè)基礎(chǔ)之上的。Agent必須理解用戶的指令,記住過去對(duì)話的內(nèi)容,記住其任務(wù)目標(biāo)、分解動(dòng)作和已執(zhí)行的步驟、遇到的問 資料來源:GoogleAgentWhitepaper,東吳證券研究所16

定義:不是所有的AI模型/產(chǎn)品都叫Agent題,才能順利地完成多步驟任務(wù)。Agent的構(gòu)成盡管如此,我們?nèi)匀粺o法準(zhǔn)確定義AI

Agent,例如:?一個(gè)AI系統(tǒng)僅僅能響應(yīng)指令、生成內(nèi)容就夠了嗎?還是要看它是否能為了達(dá)成某個(gè)特定目標(biāo)而主動(dòng)采取一系列行動(dòng)??Agent

的“行動(dòng)”是否必須對(duì)外部世界(數(shù)字或物理)產(chǎn)生狀態(tài)改變?生成信息、報(bào)告或建議算不算定義中的“行動(dòng)”??這個(gè)系統(tǒng)是只在內(nèi)部進(jìn)行計(jì)算和推理,還是需要感知外部環(huán)境的狀態(tài),并能對(duì)環(huán)境施加影響(無論是數(shù)字環(huán)境還是物理環(huán)境)??在執(zhí)行任務(wù)的過程中,系統(tǒng)是嚴(yán)格按照預(yù)設(shè)步驟執(zhí)行,還是能夠根據(jù)當(dāng)前情況自主進(jìn)行決策、選擇策略或調(diào)整計(jì)劃??需要多大程度的獨(dú)立決策和執(zhí)行能力才能稱之為Agent?需要人類確認(rèn)或干預(yù)到什么程度就不再是(完全自主的)Agent??系統(tǒng)完成任務(wù)是僅靠自身內(nèi)置的知識(shí)和能力,還是需要識(shí)別并調(diào)用外部的資源或工具(如API、數(shù)據(jù)庫、其他軟件)來輔助完成??Agent交互的“環(huán)境”必須是動(dòng)態(tài)的、不可預(yù)測(cè)的嗎?與一個(gè)靜態(tài)數(shù)據(jù)庫交互算不算環(huán)境交互??系統(tǒng)處理任務(wù)是一次性的“問答”或“生成”,還是能夠在持續(xù)一段時(shí)間內(nèi)保持對(duì)目標(biāo)和上下文的認(rèn)知(記憶),以完成需要多個(gè)步驟或較長(zhǎng)時(shí)間

才能完成的任務(wù)??Agent

的“大腦”是什么?它與底層的LLM是什么關(guān)系?Agent是

LLM

本身,還是一個(gè)圍繞

LLM構(gòu)建了規(guī)劃、決策、執(zhí)行框架的系統(tǒng)?這些問題其實(shí)是同一個(gè)問題,即,Agent需要智能到什么程度,才可以被稱之為Agent?再比如:?AI搜索(如Perplexity、DeepResearch

、NewBing)是Agent嗎?一個(gè)能理解復(fù)雜問題、自主上網(wǎng)搜索、閱讀并整合信息,最終生成一份摘要報(bào)告或直接答案的AI

搜索系統(tǒng),是Agent

嗎?它“使用”了瀏覽器或搜索引擎作為工具,并“行動(dòng)”生成了報(bào)告,這是否足夠?如果這個(gè)AI

搜索系統(tǒng)只是呈現(xiàn)整合后的信息,而沒有根據(jù)這些信息去執(zhí)行下一步的、改變外部狀態(tài)的動(dòng)作(比如基于搜索結(jié)果去預(yù)訂、購買或發(fā)送郵件),它與一個(gè)高級(jí)

的L2Reasoner的核心區(qū)別是什么?DeepResearch

這類工具,其“Agent”屬性體現(xiàn)在哪里??jī)H僅是研究過程的自動(dòng)化嗎??AI編程(如GithubCopilot

、Cursor、Devin)是Agent嗎?GitHub

Copilot根據(jù)代碼上下文提供建議,開發(fā)者選擇采納。它有環(huán)境感知(代碼上下文),也有行動(dòng)(生成代碼建議),但自主性較低,它算Agent嗎?還是更像一個(gè)“智能感知代碼的

L1模型”??AI推薦系統(tǒng)是Agent嗎?一個(gè)能分析你的歷史行為、理解你的偏好,并主動(dòng)推送(行動(dòng))相關(guān)內(nèi)容或商品的推薦引擎,它具備目標(biāo)(提升用戶參與度/轉(zhuǎn)化率)、環(huán)境感知(用戶行為數(shù)據(jù))和行動(dòng)(推送),它算Agent嗎?它的“自主性”和“規(guī)劃”體現(xiàn)在哪里? 資料來源:東吳證券研究所

17

定義:Agent的智能程度是有層次和梯度的二、Agent為何重要?解放生產(chǎn)力、走向AGI和具身智能、挑戰(zhàn)入口格局18AI

Agent作為下一代AI應(yīng)用形態(tài),將帶來革命性的變化,遠(yuǎn)超簡(jiǎn)單的信息檢索或內(nèi)容生成。Agent是能夠主動(dòng)執(zhí)行任務(wù)、解決問題的

數(shù)字化勞動(dòng)力或超級(jí)助理,其核心價(jià)值體現(xiàn)在:①深度自動(dòng)化:超越簡(jiǎn)單重復(fù):不同于RPA或傳統(tǒng)腳本主要處理固定流程的重復(fù)性任務(wù),Agent能夠理解模糊指令,自主規(guī)劃并執(zhí)行復(fù)雜的、多

步驟的、甚至需要適應(yīng)變化的認(rèn)知型任務(wù)。例如,Operator能模擬人類操作任意GUI界面完成預(yù)訂或購物,Devin能自主完成軟

件開發(fā)中的編碼、調(diào)試、測(cè)試等系列環(huán)節(jié)。端到端流程:

Agent有潛力打通原本需要多個(gè)人類角色、多個(gè)軟件系統(tǒng)協(xié)作才能完成的端到端工作流,實(shí)現(xiàn)更高層次的自動(dòng)化。

認(rèn)知自動(dòng)化:

其核心是自動(dòng)化需要思考、判斷、與數(shù)字世界交互的“知識(shí)工作”,而不僅僅是體力或簡(jiǎn)單的點(diǎn)擊操作。用operator采購商品

用operator自動(dòng)預(yù)定餐廳 資料來源:openai,東吳證券研究所19

2.1

Agent將帶來革命性的變化——深度自動(dòng)化自動(dòng)化重復(fù)性、流程化的數(shù)字/知識(shí)工作軟件開發(fā)與編程輔助垂直領(lǐng)域的專業(yè)Agent代表產(chǎn)品OpenAIDeepResearch,PerplexityGitHubCopilot,Cursor,Devin如營(yíng)銷/人力資源等行業(yè)的Agent具體能力?

信息研究與報(bào)告生成:自動(dòng)搜集、整理、分析信息并生成報(bào)告,輔助研究人員、分析師等知識(shí)工作者。?

操作軟件和網(wǎng)頁:

自動(dòng)執(zhí)行需要與軟件界面或網(wǎng)頁交互的任務(wù),如填寫表單、預(yù)訂差旅、處理郵件、管理日程、關(guān)閉廣告、計(jì)算退款等。?

數(shù)據(jù)處理與分析:

自動(dòng)執(zhí)行數(shù)據(jù)提取、

清洗、初步分析等任務(wù)。???代碼生成、補(bǔ)全、調(diào)試:提升開發(fā)者效率。復(fù)雜開發(fā)任務(wù)執(zhí)行:

能夠理解需求、規(guī)劃步驟、編寫代碼、配置環(huán)境、測(cè)

試、修復(fù)

Bug等更完整的開發(fā)流程。

API調(diào)用與集成:

Agent利用編碼能力與其他系統(tǒng)或服務(wù)交互。????客戶服務(wù):處理標(biāo)準(zhǔn)化的客戶請(qǐng)求,如查詢訂單、處理退款等。銷售/市場(chǎng)營(yíng)銷:

自動(dòng)化部分銷售流程,如

潛在客戶篩選、郵件營(yíng)銷等。人力資源:輔助處理簡(jiǎn)歷篩選、安排面試等

流程化任務(wù)。特定行業(yè):如法律文書輔助、醫(yī)療信息查詢

與初步分析等②指數(shù)級(jí)效率提升:?速度與規(guī)模:

對(duì)于特定任務(wù),Agent的處理速度可以遠(yuǎn)超人類(如RE-Bench短時(shí)限測(cè)試表現(xiàn))。更重要的是,Agent可以7x24小時(shí)不間斷工作,并且可以輕松擴(kuò)展(理論上增加算力即可增加Agent數(shù)量),實(shí)現(xiàn)人力無法比擬的規(guī)?;?。?成本優(yōu)化潛力:

雖然當(dāng)前推理成本較高,但通過自動(dòng)化高價(jià)值、高成本的人類勞動(dòng)(尤其是專業(yè)知識(shí)工作,如軟件開發(fā)、法律咨詢),長(zhǎng)期來看具有巨大的成本節(jié)約潛力。一個(gè)高效的Agent理論上可以替代或增強(qiáng)多個(gè)人類員工的生產(chǎn)力。?減少錯(cuò)誤與提升一致性:

對(duì)于定義清晰的任務(wù),Agent有望減少人為錯(cuò)誤,提高執(zhí)行的一致性和標(biāo)準(zhǔn)化水平(盡管當(dāng)前可靠性仍是挑戰(zhàn))。③解放人類生產(chǎn)力與創(chuàng)造力:人機(jī)協(xié)作新范式:Agent不僅僅是替代,更是強(qiáng)大的增強(qiáng)工具和協(xié)作伙伴。它們可以承擔(dān)復(fù)雜流程中繁瑣、耗時(shí)的部分,讓人類專家(開發(fā)者、研究員、律師等)從重復(fù)性勞動(dòng)中解放出來。聚焦高價(jià)值活動(dòng):

人類可以將時(shí)間和精力投入到更需要?jiǎng)?chuàng)造力、戰(zhàn)略思考、復(fù)雜決策、情感溝通和人際協(xié)作等AI尚不擅長(zhǎng)的高階任務(wù)上。賦能創(chuàng)新:

通過自動(dòng)化原本難以完成或成本過高的復(fù)雜分析與操作,Agent可能催生新的科學(xué)發(fā)現(xiàn)、商業(yè)模式或藝術(shù)創(chuàng)作,拓展人類能力的邊界。2.1

Agent將帶來革命性的變化——指數(shù)級(jí)效率提升 資料來源:東吳證券研究所

20

AI

的發(fā)展遵循一個(gè)從簡(jiǎn)單到復(fù)雜的層級(jí)結(jié)構(gòu),通常參考

OpenAI提出的

L1

L5框架。Agent(L3)是承上啟下的關(guān)鍵階段。它不僅需要

L2

的推理和規(guī)劃能力,更核心的是增加了與外部世界(數(shù)字世界或物理世界)交互的能力,形成閉環(huán)系統(tǒng)。這與

L1/L2主要停留在與人交互或純粹內(nèi)部思考不同。雖然

L1

L3

的路徑相對(duì)清晰,但從

L3(Agent)

L4(創(chuàng)新者)存在一個(gè)巨大的鴻溝。區(qū)別在于:L1-L3本質(zhì)是遵循指令

(instructionfollowing/execution):AI

的主要任務(wù)是理解并完成人類給定的指令或目標(biāo)。評(píng)價(jià)標(biāo)準(zhǔn)相對(duì)明確(任務(wù)是否完成,結(jié)果是否正確)。而

L4(Innovator)要求創(chuàng)造力與原創(chuàng)性:

它需要能夠超越指令

(beyondinstructions),產(chǎn)生新的想法、方法、知識(shí),甚至設(shè)定新的目標(biāo)。評(píng)價(jià)標(biāo)準(zhǔn)變得模糊,不再是簡(jiǎn)單的“對(duì)不對(duì)”,而是“好不好”、“新不新”。雖然終極目標(biāo)是AGI,但短期內(nèi)Agent

通往AGI

的路徑體現(xiàn)在其自動(dòng)化復(fù)雜任務(wù)的能力上。無論是自動(dòng)化研究信息收集(只讀Agent),還是自動(dòng)化軟件操作、任務(wù)執(zhí)行(讀寫

Agent),核心都是解放人類的注意力,提升生產(chǎn)力。通過不斷提升自動(dòng)化水平和處理任務(wù)的復(fù)雜度,Agent

的能力逐步逼近甚至超越人類特定領(lǐng)域的水平,為最終實(shí)現(xiàn)AGI奠定基礎(chǔ)。L1chatbot一個(gè)博學(xué)的“客服”或“問事處”L2reasoner一個(gè)聰明的“參謀”或“軍師”L3Agent一個(gè)能干的“管家”

或“全能助理”L4innovator一位智慧的“科學(xué)家”或“藝術(shù)家”L5Organizer一個(gè)高效運(yùn)轉(zhuǎn)的“公司”

或復(fù)雜的“生態(tài)系統(tǒng)”AGI一個(gè)數(shù)字版的“人”,

或者超越人類智慧 資料來源:東吳證券研究所

21

2.2

Agent(L3)是通往AGI的關(guān)鍵環(huán)節(jié)當(dāng)前以“只讀”型

Agent(如

AI研究助手)為代表的應(yīng)用已初步展現(xiàn)出明確的產(chǎn)品市場(chǎng)契合點(diǎn)(PMF),主要服務(wù)于知識(shí)工作者。下一步的關(guān)鍵是從“只讀”進(jìn)化到“讀寫”型

Agent,即賦予

AI執(zhí)行操作、調(diào)用工具(如瀏覽器、郵件客戶端、API)、與外部世界交互的能力(如

OpenAIOperator

、Monica

的探索)。雖然“讀寫”

Agent潛力巨大(能自主完成訂票、發(fā)郵件、甚至發(fā)布懸賞任務(wù)等復(fù)雜操作),但其發(fā)展會(huì)更謹(jǐn)慎,因?yàn)樯婕鞍踩?quán)限和潛在風(fēng)險(xiǎn),

需要配合監(jiān)控、對(duì)齊和防濫用措施。隨著記憶(Memory)和在線學(xué)習(xí)(Online

Learning)這兩大關(guān)鍵技術(shù)的突破,Agent

的能力將進(jìn)一步飛躍,可能實(shí)現(xiàn)

Agent指揮

Agent、更個(gè)性化、

能實(shí)時(shí)學(xué)習(xí)適應(yīng)新情況。未來可能出現(xiàn)為

AI設(shè)計(jì)的專用工具,進(jìn)一步提升其效率,超越人類工具的限制。Agent

的普及將極大解放人類注意力,從重復(fù)性工作中解脫,可能帶來生產(chǎn)力的指數(shù)級(jí)增長(zhǎng),改變工作和生活方式。目前,絕大多數(shù)AIAgent主要活躍在數(shù)字世界中。這是因?yàn)閿?shù)字世界?環(huán)境結(jié)構(gòu)化:數(shù)字環(huán)境(如網(wǎng)頁、軟件界面、API)通常具有相對(duì)清晰的結(jié)構(gòu)、明確的輸入輸出規(guī)則和可預(yù)測(cè)性。?信息易獲取:數(shù)據(jù)以文本、代碼、圖像等形式存在,相對(duì)容易被模型理解和處理。?行動(dòng)成本低/可逆:數(shù)字操作(如點(diǎn)擊、輸入、調(diào)用API)通常成本低廉,且很多操作是可撤銷或影響有限的。然而,這種數(shù)字世界的局限性也很明顯:AI

的能力被束縛在屏幕和網(wǎng)絡(luò)之內(nèi),無法直接感知和影響我們生活的物理現(xiàn)實(shí)。真正的通用智能必然要求能

夠理解并作用于物理世界。 資料來源:東吳證券研究所

22

2.2

Agent(L3)是走向具身智能的關(guān)鍵環(huán)節(jié)我們認(rèn)為,AI

Agent的發(fā)展可能對(duì)現(xiàn)有的互聯(lián)網(wǎng)入口格局產(chǎn)生深遠(yuǎn)甚至顛覆性的影響。入口可能更加集中,價(jià)值鏈可能重構(gòu):可能出現(xiàn)少數(shù)幾個(gè)主導(dǎo)性的通用Agent。傳統(tǒng)依賴流量分發(fā)的入口(如搜索引擎、應(yīng)用商店)面臨挑戰(zhàn),

能直接完成任務(wù)或提供核心能力的Agent平臺(tái)和服務(wù)商可能獲得更大

價(jià)值。1.

對(duì)傳統(tǒng)搜索引擎的挑戰(zhàn)與重塑:?信息獲取方式改變:用戶可能不再需要通過關(guān)鍵詞搜索,然后瀏覽一堆鏈接來尋找答案或服務(wù)。Agent可以直接理解用戶的復(fù)雜意圖(例如“幫我

規(guī)劃一個(gè)周末去杭州的旅行,包含交通、住宿和景點(diǎn),預(yù)算2000元”),然后整合信息、調(diào)用工具(訂票、訂酒店API)、進(jìn)行規(guī)劃,并直接給出

完整方案甚至完成預(yù)訂。這大大削弱了傳統(tǒng)搜索引擎作為信息“門戶”的角色。?搜索即執(zhí)行:Agent將搜索從“查找信息”升級(jí)為“完成任務(wù)”。入口的價(jià)值不再僅僅是分發(fā)流量到其他網(wǎng)站,而是直接滿足用戶的最終需求。像

Perplexity、Google的AIOverviews以及DeepSearch/Research,都體現(xiàn)了這種趨勢(shì)——搜索結(jié)果本身就是答案或解決方案的一部分。 資料來源:ARKbigideas2025,東吳證券研究所

23

2.3

Agent將重塑互聯(lián)網(wǎng)流量入口格局ChatGPT,Claude,Perplexity和Bing的搜索份額AI聚合電商信息2.Agent本身成為入口:最具顛覆性的可能是,一個(gè)或多個(gè)強(qiáng)大的通用Agent成為用戶上網(wǎng)和處理數(shù)字任務(wù)的首選入口。用戶首先想到的是“問Agent”,而不是“打開某個(gè)App或網(wǎng)站”。這樣的通用Agent有可能是APP、瀏覽器或者OS操作系統(tǒng)。?OS級(jí)Agent:操作系統(tǒng)(如WindowsCopilot、未來更強(qiáng)大的Siri/Google

Assistant)可以深度集成Agent能力,協(xié)調(diào)控制設(shè)備上的各種應(yīng)用和數(shù)據(jù)。用戶可能直接通過OS層的Agent下達(dá)指令,Agent負(fù)責(zé)調(diào)用合適的App或服務(wù)來完成,使得OS本身成為一個(gè)更核心、更主動(dòng)的交互入口。?瀏覽器集成Agent:瀏覽器作為訪問Web的主要工具,集成Agent可以輔助用戶瀏覽、總結(jié)網(wǎng)頁、寫作、甚至自動(dòng)化某些網(wǎng)頁操作。這讓瀏覽

器從一個(gè)被動(dòng)的頁面加載器,變成一個(gè)主動(dòng)的智能助手,增強(qiáng)了其入口地位,例如EdgeCopilot、夸克、豆包(也有瀏覽器功能)

。?“超級(jí)App”入口地位鞏固:對(duì)于像微信這樣的超級(jí)App,如果能成功集成強(qiáng)大的Agent能力,并打通其內(nèi)部豐富的小程序、服務(wù)和社交關(guān)系,它可能成為一個(gè)極其強(qiáng)大的、覆蓋生活方方面面的Agent入口。用戶在一個(gè)App內(nèi)就能完成大量任務(wù)。3.部分APP被“管道化”:一些功能單一的服務(wù)型App(如訂票、打車、天氣),用戶可能不再需要直接打開它們,而是通過Agent來調(diào)用其背后的

API或功能。這些App可能淪為Agent的“工具箱”,其自身的入口價(jià)值下降。而復(fù)雜或體驗(yàn)型App,仍是入口:對(duì)于需要沉浸式體驗(yàn)或復(fù)雜交互的應(yīng)用(如游戲、專業(yè)創(chuàng)作工具、內(nèi)容社區(qū)),用戶可能仍然會(huì)直接打開App。但Agent也可能在這些App內(nèi)部提供輔助功能。 資料來源:東吳證券研究所

24

2.3

Agent將重塑互聯(lián)網(wǎng)流量入口格局小程序視頻號(hào)微信小店郵件備忘錄keynoteOutlookteamsEdgeIM朋友圈公眾號(hào)pages照片郵件SiriAppleIntelligenceWindows

Copilotpowerpoint微信excelword我們預(yù)計(jì),圍繞“通用入口級(jí)Agent”的大戰(zhàn)將在2025年下半年開始逐漸拉開帷幕。為什么?因?yàn)長(zhǎng)3級(jí)別Agent能力(能夠系統(tǒng)性完成復(fù)雜任務(wù))可能在一年內(nèi)取得關(guān)鍵突破,一旦技術(shù)相對(duì)成熟,能夠支撐起一個(gè)足夠“通用”的Agent體驗(yàn),各大有實(shí)力的玩家就會(huì)下場(chǎng)爭(zhēng)奪市場(chǎng)主導(dǎo)權(quán)。 資料來源:Genspark,東吳證券研究所

25

2.3我們預(yù)計(jì)入口級(jí)Agent大戰(zhàn)將于25H2開啟Agent在L3的評(píng)分有望進(jìn)一步突破三、競(jìng)爭(zhēng)格局:模型即產(chǎn)品,通用Agent將由大廠主導(dǎo)26n

平臺(tái)

vs.應(yīng)用n

通用

vs.

垂直n

成本與效率價(jià)值將主要沉淀在擁有核心模型和平臺(tái)的巨頭,還是能夠創(chuàng)造獨(dú)特價(jià)值的Agent應(yīng)用開發(fā)商?目前看平臺(tái)方優(yōu)勢(shì)明顯,平臺(tái)公司傾向于將其Agent能力與其現(xiàn)有云服務(wù)、操作系統(tǒng)、辦公套件等深度綁定,構(gòu)建封閉或半封閉生態(tài),增加用

戶遷移成本。但應(yīng)用層創(chuàng)新仍有機(jī)會(huì)。通用Agent(如Operator)能力不斷提升,是否會(huì)擠壓垂直Agent的生存空間?短期內(nèi),垂直Agent憑借領(lǐng)域知識(shí)仍有優(yōu)勢(shì);但長(zhǎng)期看,通用Agent的泛化能力是巨大威脅。推理成本是Agent大規(guī)模商業(yè)化的關(guān)鍵瓶頸。模型效率、訓(xùn)練/推理優(yōu)化、以及芯片成本將是重要的競(jìng)爭(zhēng)維度。n交互范式之爭(zhēng)n

數(shù)據(jù)與護(hù)城河n

人才競(jìng)爭(zhēng)Operator代表的直接GUI操作與Manus代表的“可見性”過程展示,以及未來可能出現(xiàn)的更優(yōu)化的Agent專用接口,都反映了對(duì)最佳人機(jī)(或Agent-機(jī))交互方式的探索。高質(zhì)量的訓(xùn)練數(shù)據(jù)(尤其是人類示范數(shù)據(jù)和特定

領(lǐng)域數(shù)據(jù))以及持續(xù)的用戶反饋數(shù)據(jù)(盡管其提

升智能的效率存疑,但對(duì)產(chǎn)品優(yōu)化有用)是重要

的競(jìng)爭(zhēng)壁壘,但并非傳統(tǒng)意義上的“數(shù)據(jù)飛輪”。頂尖的AI研究員和工程師是各家爭(zhēng)奪的核心資源。AIAgent的競(jìng)爭(zhēng)格局是典型的“巨頭環(huán)伺,新銳突圍”。大型科技平臺(tái)憑借模型、數(shù)據(jù)、資金和生態(tài)優(yōu)勢(shì)占據(jù)主導(dǎo)地位,并致力于構(gòu)建平臺(tái)和生態(tài)系統(tǒng)。然而,在基礎(chǔ)設(shè)施、工具鏈以及需要深度領(lǐng)域知識(shí)的垂直應(yīng)用方面,仍然存在創(chuàng)業(yè)公司和專業(yè)廠商的機(jī)會(huì)。成本、效率、交互體驗(yàn)和商業(yè)模式的創(chuàng)新將是未來競(jìng)爭(zhēng)的關(guān)鍵。后續(xù)續(xù)密切關(guān)注技術(shù)演進(jìn)、平臺(tái)戰(zhàn)略以及細(xì)分市場(chǎng)的動(dòng)態(tài)。我們預(yù)計(jì)Agent領(lǐng)域的競(jìng)爭(zhēng)將圍繞六個(gè)維度展開AI

Agent的競(jìng)爭(zhēng)格局是典型的“巨頭環(huán)伺,新銳突圍” 資料來源:東吳證券研究所

27

?在LLM經(jīng)歷突破性發(fā)展的初期階段,模型本身展現(xiàn)出強(qiáng)大能力(如對(duì)話、寫作、編碼、推理),以至于模型本身幾乎就等同于產(chǎn)品。模型的“magicmoment”往往直接定義了新的產(chǎn)品可能性。例如:?

GPT-3.5解鎖了Chatbot形態(tài);?

ClaudeSonnet解鎖了Cursor;?DeepSeek的出圈也是因?yàn)槠銻1推理能力,其產(chǎn)品形態(tài)并沒有過多優(yōu)化;?OpenAIDeepResearch

并非在O3上做了套殼,而是基于CUA重新訓(xùn)練了專有模型。AI應(yīng)用的核心價(jià)值很大程度上就是讓用戶能夠便捷地體驗(yàn)和使用這些前沿模型的基礎(chǔ)能力。

“模型的能力”幾乎就是產(chǎn)品的全部吸引力。DataBricks公司生成式AI副總裁NaveenRao

預(yù)測(cè):在未來兩到三年內(nèi),所有閉源的

AI模型提供商都會(huì)停止銷售API服務(wù)。這表明,API經(jīng)濟(jì)即將走向終結(jié)。模型提供商與應(yīng)用層之間原本的蜜月期可能已經(jīng)徹底結(jié)束。我們已經(jīng)看到了一些跡象:?大模型公司開始停止提供最新模型的API:DeepSearch

并未提供

API接口,僅作為OpenAI

高級(jí)訂閱的增值功能出現(xiàn);Claude

Code

則只是一個(gè)極為簡(jiǎn)單的終端整合。模型廠商已開始跳過第三方應(yīng)用層,直接創(chuàng)造用戶價(jià)值。?應(yīng)用層企業(yè)開始布局模型訓(xùn)練能力:應(yīng)用型公司也意識(shí)到了這種威脅,嘗試轉(zhuǎn)型。例如

Cursor

擁有一款自主開發(fā)的小型代碼補(bǔ)全模型;WindSurf

內(nèi)部開發(fā)了

Codium這樣一款低成本的代碼模型;Perplexity此前一直依靠?jī)?nèi)部分類器進(jìn)行請(qǐng)求路由,最近更是轉(zhuǎn)型訓(xùn)練了自己的DeepSeek

變體模型用于搜索用途。?“應(yīng)用套殼商”

(Wrappers)實(shí)際上處于困境之中:他們要么自主訓(xùn)練模型,要么就等著被上游大模型徹底取代。他們現(xiàn)在所做的事情,本質(zhì)上都是為上游大模型廠商進(jìn)行免費(fèi)的市場(chǎng)調(diào)研、數(shù)據(jù)設(shè)計(jì)和數(shù)據(jù)生成。 資料來源:極客公園,founderpark,東吳證券研究所28

模型即產(chǎn)品:爆款應(yīng)用背后是模型能力更新類型產(chǎn)品名簡(jiǎn)介ChatbotAddcontext.xyz為用戶創(chuàng)建個(gè)性化聊天機(jī)器人的平臺(tái)Write-a-cardAI賀卡信息生成器BibleGPT圣經(jīng)GPTAIWritingNeuralcanvasAI動(dòng)漫生成平臺(tái)Postgeniusapp社交媒體推文生成器ClucSEO優(yōu)化內(nèi)容生成工具AIImagePhotofixAI照片編輯器MakePose角色和動(dòng)作生成器IllustrateAI插圖生成工具AIDesignAI

Designer可視化室內(nèi)設(shè)計(jì)工具ProductivityClipGPTAI書簽和筆記工具AudioWhisper.aiopenAI開發(fā)的多語言轉(zhuǎn)錄、翻譯和識(shí)別工具VideoQuestionYoutubeAI視頻問答工具什么是“淺層套殼產(chǎn)品”?“淺層套殼產(chǎn)品”(Wrappers)指的是那些僅僅在強(qiáng)大的底層AI模型(通

常通過API調(diào)用)之上增加了一個(gè)相對(duì)簡(jiǎn)單的用戶界面(UI)、應(yīng)用外殼或非常基礎(chǔ)的功能封裝,而沒有提供顯著附加價(jià)值的應(yīng)用。這類產(chǎn)品可能包括:?提供特定Prompt模板的簡(jiǎn)單問答工具。?對(duì)模型輸出進(jìn)行非常有限的格式化或后處理的應(yīng)用。?僅僅是換了個(gè)皮膚或交互方式來調(diào)用通用模型API的服務(wù)。?缺乏深度工作流整合、獨(dú)特?cái)?shù)據(jù)、復(fù)雜功能或差異化用戶體驗(yàn)的應(yīng)用。?它們的核心競(jìng)爭(zhēng)力幾乎完全依賴于底層模型的表現(xiàn),

自身的“護(hù)城河”

非常淺。我們已經(jīng)看過了太多的失敗案例。AI墓地(AIGraveyard)網(wǎng)站統(tǒng)計(jì)了5046個(gè)AI應(yīng)用,其中1210個(gè)已停止運(yùn)行或停止服務(wù)(截至2025/4/28),其中許多是套殼產(chǎn)品,停運(yùn)最多的類型是AI寫作工具。這些套殼產(chǎn)品通常模仿大模型如ChatGPT的功能,但由于娛樂性大于實(shí)用性、難以應(yīng)對(duì)復(fù)雜社交場(chǎng)景、用戶留存和盈利能力不足等原因而失敗。 資料來源:甲子光年,AIGraveyard,東吳證券研究所

29

模型即產(chǎn)品:淺層套殼產(chǎn)品終將被顛覆AIGraveyard各類型代表性項(xiàng)目1.掌控基礎(chǔ)大模型:平臺(tái)方如OpenAI

、Google、微軟、Anthropic等投入巨資研發(fā)和迭代基礎(chǔ)大模型。這些模型是Agent能力的“大腦”,其性能、成本和功能直接決定了上層應(yīng)用的天花板。應(yīng)用開發(fā)商在很大程度上依賴平臺(tái)方提供的模型API。2.控制算力:Agent的訓(xùn)練和大規(guī)模推理需要龐大的算力、存儲(chǔ)和網(wǎng)絡(luò)資源。平臺(tái)方通常也是主要的云服務(wù)提供商(如AWS

、Azure等),它們不僅提供這些底層資源,還越來越多地推出專門的Agent開發(fā)、托管和管理平臺(tái)。這使得應(yīng)用開發(fā)商在基礎(chǔ)設(shè)施層面也對(duì)平臺(tái)方產(chǎn)生依賴。3.設(shè)定技術(shù)標(biāo)準(zhǔn)與構(gòu)建生態(tài):平臺(tái)方有能力推動(dòng)和設(shè)定關(guān)鍵的技術(shù)標(biāo)準(zhǔn)和協(xié)議(如MCP)。它們通過提供SDK、開發(fā)者工具和應(yīng)用市場(chǎng)(如GPTStore),吸引開發(fā)者圍繞其平臺(tái)構(gòu)建應(yīng)用。一旦生態(tài)形成,平臺(tái)方可以通過分發(fā)、認(rèn)證、服務(wù)抽成等方式進(jìn)一步鞏固其價(jià)值地位,并增加開發(fā)者的遷移成本。4.數(shù)據(jù)與研發(fā)的規(guī)模效應(yīng):平臺(tái)方擁有海量數(shù)據(jù)用于訓(xùn)練更通用的基礎(chǔ)模型,并且具備更雄厚的資金實(shí)力進(jìn)行前沿的AI研究。這種規(guī)模效應(yīng)使得它們

在提升模型通用能力和探索新技術(shù)方面具有顯著優(yōu)勢(shì)。5.強(qiáng)大的分發(fā)渠道:平臺(tái)方通常擁有龐大的現(xiàn)有用戶基礎(chǔ)(操作系統(tǒng)、搜索引擎、辦公軟件、社交網(wǎng)絡(luò)、企業(yè)客戶群),可以將Agent能力和相關(guān)產(chǎn)品快速觸達(dá)海量用戶,這是初創(chuàng)應(yīng)用開發(fā)商難以比擬的。我們認(rèn)為淺層套殼產(chǎn)品終將被顛覆。為什么?根本原因在于這類產(chǎn)品缺乏可持續(xù)的競(jìng)爭(zhēng)壁壘,極易受到快速迭代的AI技術(shù)和市場(chǎng)格局的沖擊:?過度依賴底層模型,易受到模型迭代的降維打擊。淺層產(chǎn)品的能力上限完全由底層模型決定。一旦底層模型升級(jí)換代緩慢、API提價(jià)、調(diào)整服務(wù)策略甚至停止服務(wù),這些產(chǎn)品將立刻失去競(jìng)爭(zhēng)力甚至無法生存。它們的命運(yùn)完全掌握在模型提供商手中。然而,基礎(chǔ)大模型的能力迭代速度極快。今天需要一個(gè)“套殼”應(yīng)用才能實(shí)現(xiàn)的功能,明天可能通過調(diào)用新一代模型的一個(gè)簡(jiǎn)單Prompt就能直接完成。模型能力的提升會(huì)不斷“內(nèi)化”原本屬于應(yīng)用層的功能,使得那些僅僅是對(duì)舊模型能力進(jìn)行封裝的淺層應(yīng)用迅速變得多余和過時(shí)。?缺乏核心壁壘,易被復(fù)制:由于沒有構(gòu)建真正的技術(shù)或產(chǎn)品壁壘,競(jìng)爭(zhēng)對(duì)手可以輕易地通過調(diào)用相同或類似的底層模型API,快速復(fù)制出一個(gè)功能

相近的產(chǎn)品,導(dǎo)致市場(chǎng)迅速陷入同質(zhì)化競(jìng)爭(zhēng)和價(jià)格戰(zhàn)。?平臺(tái)整合的擠壓效應(yīng):擁有強(qiáng)大基礎(chǔ)模型和生態(tài)系統(tǒng)的平臺(tái)公司(如微軟、谷歌)傾向于將AI能力深度整合進(jìn)其操作系統(tǒng)、辦公套件、瀏覽器等核

心產(chǎn)品中(如WindowsCopilot,M365Copilot)。用戶在熟悉的、高頻使用的平臺(tái)內(nèi)就能便捷地獲得類似甚至更好的功能,這將極大擠壓獨(dú)立的、功能單一的淺層套殼應(yīng)用的生存空間。 資料來源:東吳證券研究所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論