大語(yǔ)言模型綜合能力評(píng)測(cè)報(bào)告

上傳人：1*** IP屬地：廣東上傳時(shí)間：2025-06-30 格式：PPTX 頁(yè)數(shù)：32 大小：1.47MB 積分：7.19 舉報(bào) 版權(quán)申訴

大語(yǔ)言模型綜合能力評(píng)測(cè)報(bào)告_第2頁(yè)

大語(yǔ)言模型綜合能力評(píng)測(cè)報(bào)告_第3頁(yè)

大語(yǔ)言模型綜合能力評(píng)測(cè)報(bào)告_第4頁(yè)

大語(yǔ)言模型綜合能力評(píng)測(cè)報(bào)告_第5頁(yè)

已閱讀5頁(yè)，還剩27頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大語(yǔ)言模型綜合能力測(cè)評(píng)報(bào)告20231桌面研究通過(guò)對(duì)行業(yè)公開(kāi)信息進(jìn)行桌面研

究，資料包括但不限于專(zhuān)業(yè)機(jī)構(gòu)學(xué)術(shù)論文、文章資料、論壇討論、研究報(bào)告、相關(guān)廠商產(chǎn)品介紹、

相關(guān)專(zhuān)家公開(kāi)演講內(nèi)容等。

研究方法說(shuō)明結(jié)合桌面研究和專(zhuān)家訪談進(jìn)行觀

點(diǎn)沉淀和交流，并經(jīng)由報(bào)告形式InfoQ研究中心針對(duì)本次研究

定向邀請(qǐng)了國(guó)內(nèi)外的相關(guān)專(zhuān)家2專(zhuān)家訪談進(jìn)行訪談。3InfoQ

分析對(duì)外展示。目錄CONTENTS02大模型產(chǎn)品特征和核心能力03大模型產(chǎn)品測(cè)評(píng)結(jié)果和特征大模型產(chǎn)品未來(lái)發(fā)展展望大模型發(fā)展背景0104大模型發(fā)展背景2019?

OpenAI發(fā)布GPT-2并部分開(kāi)源?

谷歌推出

BERT模型2020?

百度推出可以準(zhǔn)確理解語(yǔ)義的ERNINE2.02023?

某著名企業(yè)基于ChatGPT發(fā)布New

Bing?FaceBook發(fā)布LLaMA-13B?

谷歌發(fā)布Bard以應(yīng)對(duì)ChatGPT?復(fù)旦團(tuán)隊(duì)發(fā)布MOSS

大語(yǔ)言模型發(fā)展經(jīng)過(guò)三階段在2023年進(jìn)入爆發(fā)階段2021?

OpenAI推出能實(shí)現(xiàn)文本生成圖像

的DALL-E模型?

FaceBook推出CLIP模型?

華為正式發(fā)布盤(pán)古大模型?

OpenAI推出Codex?

通義千問(wèn)、盤(pán)古NLP、天工3.5、星火等國(guó)產(chǎn)大模型陸續(xù)發(fā)布?

谷歌更新Bard并推出PaLM

2模型?

某著名企業(yè)宣布Windows系統(tǒng)全方位集成Copilot?

OpenAI發(fā)布GPT-4并實(shí)現(xiàn)圖像識(shí)別?

百度文心一言發(fā)布?

某著名企業(yè)宣布將GPT-4接入Office全家桶2017?

谷歌推出用于處理自然語(yǔ)言任務(wù)

的Transformer

神經(jīng)網(wǎng)絡(luò)架構(gòu)2022?

OpenAI

推出

ChatGPT-3.52018?

OpenAI

發(fā)布

GPT-1大語(yǔ)言模型爆發(fā)階段大語(yǔ)言模型誕生階段大語(yǔ)言模型探索階段Google

)GoogleDeepMind

OMeta

BloomT0BloomZstability.aiStable

Diffusion

StableLMLaMDAPaLMPaLM-ET5ImagenFlanGopherChinchillaGatoLLaMAMMSOPT-175BGPT-4DALL·E2CodeXstanforduniversityDolly

2.0LIMA-65BAl21studioJurassic-1JumboClaudeGPT-J

6Bvicuna-13bG

Bard

BingChat

ChatGPTAN

Claude斜杠

門(mén)出門(mén)間間序列猴子

WPSAI

有道youdao

曹植

雪湖

·海若

知海圖AIN寫(xiě)作貓

ChatJD

從容

其他應(yīng)用

悟道

文心

通義icea

二郎神inspur浪潮

源1.0言犀

日日新Tencen↑騰訊

混元基礎(chǔ)模型

星火基礎(chǔ)模型ChatBot

國(guó)內(nèi)外廠商齊發(fā)力，大語(yǔ)言模型產(chǎn)業(yè)規(guī)?？捎^其他應(yīng)用Noton

Cedille

CopilotColab

Copilot為云盤(pán)古天河天元大模型

玉言自研大模型基礎(chǔ)模型MathGPTChatBot國(guó)

外國(guó)

內(nèi)大語(yǔ)言模型產(chǎn)品研發(fā)需要同時(shí)具備三大要素，

分別為數(shù)據(jù)資源要素、算法和模型要素、資金和資源要素。InfoQ研究中心分某省市場(chǎng)中的產(chǎn)品特征，

數(shù)據(jù)

資源、資金和資源兩要素為大模型研發(fā)的基礎(chǔ)要素，

即必要不充分要素。雖然數(shù)據(jù)、資金資源為大語(yǔ)言模型研發(fā)設(shè)置了高門(mén)檻，

但對(duì)于實(shí)力雄厚的大型企業(yè)仍然是挑戰(zhàn)較小的。算法和模型是目前區(qū)分大語(yǔ)言模型研發(fā)能力的核心要素。算法和模型影響的的模型豐富度、模型準(zhǔn)確性、能力涌現(xiàn)等都成為評(píng)價(jià)大語(yǔ)言模型優(yōu)劣的核心指標(biāo)。算法和模型?模型訓(xùn)練的形式?涌現(xiàn)出的思維鏈?基于人類(lèi)反饋的學(xué)習(xí)模型

大語(yǔ)言模型研發(fā)的關(guān)鍵影響要素資金和資源?頂級(jí)開(kāi)發(fā)者構(gòu)建的大規(guī)模研發(fā)團(tuán)隊(duì)?昂貴的GPU背后的大規(guī)模資金投入數(shù)據(jù)資源?模型參數(shù)規(guī)模?訓(xùn)練模型次數(shù)?訓(xùn)練使用的數(shù)據(jù)集核心要素基礎(chǔ)要素基礎(chǔ)要素百億參數(shù)是入場(chǎng)券GPT-3和LaMDA的數(shù)據(jù)顯示，在模型參數(shù)規(guī)模不超過(guò)100億-680億時(shí)，大模型的很多能力（如計(jì)算能力）幾乎為零。大量計(jì)算觸發(fā)煉丹機(jī)制根據(jù)NVIDIA

研究論文里的附錄章節(jié)顯示，一次迭代的計(jì)算量約為4.5

ExaFLOPS

，而完整訓(xùn)練需要9500次迭代，完整訓(xùn)練的計(jì)算量即為430ZettaFLOPS（相當(dāng)于單片A100跑43.3年的計(jì)算量）。大量且豐富的數(shù)據(jù)集常見(jiàn)的數(shù)據(jù)集包括GSM8k

、USSE

、MMLU

、HumanEval等。O1.

模型參數(shù)規(guī)模O2.

模型計(jì)算量O3.

訓(xùn)練使用數(shù)據(jù)集?

模型在參數(shù)規(guī)模達(dá)到一定程度后，性能首先得到急劇提升，同時(shí)涌現(xiàn)的能力。特別是任務(wù)所訓(xùn)練的模型適用于更多以前訓(xùn)練的任務(wù)。涌現(xiàn)對(duì)大型模型應(yīng)用的影響非常重要，只有通過(guò)這種能力，我們才能高效地實(shí)現(xiàn)模型的泛化，并實(shí)現(xiàn)模型的遷移。

大語(yǔ)言模型訓(xùn)練之需要足夠“?”數(shù)據(jù)來(lái)源：

Sparks

ofArtificial

General

Intelligence

Early

experimentswith

GPT-4國(guó)內(nèi)未公布參數(shù)規(guī)模?

自研大模型（字節(jié)）?

1+N認(rèn)知智能大模型（科大訊飛）?

二郎神模型（

IDEA研究院）?自研AI大模型（光年之外）?

自研大模型（燧原科技）?

超擬人大模型（聆心智能）?

自研大模型（香依科技）?

魔力寫(xiě)作（竹間智能）?自研大模型（MiniMax）?

蛋白質(zhì)大模型（浙江大學(xué)杭州國(guó)

際科創(chuàng)中心）?書(shū)生3.5

（商）?（瀾舟科技）?DriveGPT

（毫末智行）?ChatGLM

（某著名企業(yè)）國(guó)內(nèi)模型參數(shù)規(guī)模

>100億?ERNIE

3.0

（百度）?盤(pán)古（華為）?MOSS（某著名企業(yè)）?遵義（阿里）?言犀（京東）?混元（騰訊）?伏羲（網(wǎng)易）?源1.0（某著名企業(yè)）?

行業(yè)精靈（云從科技）?八卦爐（達(dá)摩院）?

元語(yǔ)大模型（莫塔社區(qū)）?

曹植大模型（達(dá)觀數(shù)據(jù)）?

紫東太初（中科院自動(dòng)化研究所）?

自研大模型（西湖星辰）?悟道2.0

（智源研究院）?

GPT-4（OpenAI）未公開(kāi)，推測(cè)為超過(guò)50000億?

PaLM（Google）

5400億?

BERT（Google）

4810億?

GPT-3.5（OpenAI）

1750億?

LaMDA（Google）1370億?

Galatica（Meta）1200億?

LLaMDA（Meta）

650億?

Chinchilla（DeepMind）700

億?

Claude

（Anthropic）

520億?

Mineva

（Google）

5400億?國(guó)內(nèi)大模型出現(xiàn)大量參數(shù)規(guī)模大于100億的模型?百度研發(fā)的Ernie和華為研發(fā)的盤(pán)古目前是有數(shù)據(jù)的國(guó)內(nèi)大模型參數(shù)規(guī)模的領(lǐng)先者?國(guó)際領(lǐng)先的大模型GPT-4據(jù)推測(cè)參數(shù)規(guī)模量級(jí)可達(dá)5萬(wàn)億以上

大模型訓(xùn)練參數(shù)規(guī)模量級(jí)最高或達(dá)5萬(wàn)億以上國(guó)內(nèi)模型參數(shù)規(guī)模

<100億國(guó)際模型參數(shù)規(guī)模資料來(lái)源：民生證券研究院和wiki百科訓(xùn)練方式直接決定大模型產(chǎn)出的效率，

根據(jù)已經(jīng)公開(kāi)的論文解讀，現(xiàn)有優(yōu)秀模型訓(xùn)練方式呈現(xiàn)高度工程化特征。

工程化訓(xùn)練方式主要呈現(xiàn)三個(gè)特征：1

、詳細(xì)而嚴(yán)格的規(guī)則：對(duì)于如何處理數(shù)據(jù)和什么是高質(zhì)量數(shù)據(jù)等給出詳細(xì)和嚴(yán)格的執(zhí)行和判斷的方法論；2

、明確定義標(biāo)注意圖：如詳細(xì)說(shuō)明標(biāo)注原因，

并要求如果標(biāo)注人員不能完全理解，則迅速跳出流程；3、團(tuán)隊(duì)培訓(xùn)和考核機(jī)制完善：通過(guò)評(píng)分等方式，持續(xù)保證團(tuán)隊(duì)處在目標(biāo)水準(zhǔn)以上。模型訓(xùn)練技術(shù)（舉例）Chain

Thought通過(guò)分解訓(xùn)練過(guò)程為較小的相互關(guān)聯(lián)的

任務(wù)來(lái)訓(xùn)練模型的方法。這種方法的目

的是使模型能夠理解和維護(hù)文本中的思維鏈，從而生成連貫的、上下文相關(guān)的

響應(yīng)。自研閉源元模型：典型代表包括OpenAI的GPT3.5

、GPT4等，國(guó)內(nèi)廠商百度的原模型ERNIE3.0、華為的元模型PanGu-Σ等

。自研開(kāi)源元模型：典型代表包括OpenAI的GPT2

、Google的BERT等。在開(kāi)源模型基礎(chǔ)上微調(diào)的模型：典型代表包括某著名企業(yè)的ChatGLM-6B、商和某著名企業(yè)開(kāi)源中文語(yǔ)言模型駱駝

Luotuo等。

算法和訓(xùn)練模型水平主導(dǎo)大語(yǔ)言模型的能力表現(xiàn)Human

Feedback通過(guò)人類(lèi)給予反饋對(duì)模型形成獎(jiǎng)勵(lì)機(jī)制，

幫助模型進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。這種方

法可以在預(yù)訓(xùn)練模型和產(chǎn)某省市場(chǎng)后持續(xù)獲得反饋，幫助模型增強(qiáng)判斷力。Instruction-tuning通過(guò)為模型提供任務(wù)相關(guān)的指令來(lái)指導(dǎo)模型學(xué)習(xí)的方法。這種方法的目的是使模型更好地理解任務(wù)的要求，并提高其

生成能力和上下文理解能力。Prompt-tuning使用自然語(yǔ)言提示（prompt）

的

方法，以指導(dǎo)模型生成特定的輸出。這種方法的目的是通過(guò)對(duì)模型進(jìn)行定向訓(xùn)練，使其在特定任務(wù)上表現(xiàn)出更好的性能。在開(kāi)源模型基礎(chǔ)上微調(diào)的模型自研閉源元模型自研開(kāi)源元模型訓(xùn)練方式

工程化基礎(chǔ)模型人工智能領(lǐng)域中自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等領(lǐng)域目前均為對(duì)開(kāi)發(fā)者要求最高的技術(shù)領(lǐng)域之一，

需要開(kāi)發(fā)者擁有優(yōu)秀的教育背景和前沿技術(shù)背景。另外，

對(duì)于團(tuán)隊(duì)磨合、經(jīng)驗(yàn)等要求均較為嚴(yán)格。從目前公布的部分大模型研發(fā)團(tuán)隊(duì)背景可以看出，團(tuán)隊(duì)成員均來(lái)自國(guó)際頂級(jí)高?；驌碛许敿?jí)科研經(jīng)驗(yàn)。根據(jù)谷歌披露數(shù)據(jù)，訓(xùn)練參數(shù)規(guī)模

1750

億的大模型，理想訓(xùn)練費(fèi)用超過(guò)

900

萬(wàn)美元。類(lèi)似的，計(jì)算服務(wù)為了實(shí)現(xiàn)覆蓋的產(chǎn)品和功能范圍的廣度，要求云服務(wù)提供商持續(xù)進(jìn)行產(chǎn)品功能更新和產(chǎn)品矩陣建設(shè)來(lái)滿足用戶多元需求，

Amazon

和

Google

持續(xù)進(jìn)行大額資本

投入以完善產(chǎn)品能力。2022

年Amazon

和

Google

的資本性支出分別達(dá)

583

億美元和

315

億美元，并仍然呈現(xiàn)上漲趨勢(shì)。人才和資本都對(duì)大語(yǔ)言模型提出了高密度的要求高密度人才團(tuán)隊(duì)

高密度資本加持大模型產(chǎn)品核心能力解讀搜索大語(yǔ)言模型將計(jì)算機(jī)能力從搜索拓展到認(rèn)知

學(xué)習(xí)和行動(dòng)

解決方案層面

大語(yǔ)言模型的發(fā)展帶來(lái)了大規(guī)模技術(shù)革命的希望通過(guò)海量數(shù)據(jù)的預(yù)訓(xùn)練模型，大

語(yǔ)言模型擁有了很多方面接近于人類(lèi)認(rèn)知的能力。而在涌現(xiàn)能力的加持下，大語(yǔ)言

模型也逐漸擁有了更為準(zhǔn)確的邏輯推理能力，這—能力體現(xiàn)為人

類(lèi)的學(xué)習(xí)能力。在大語(yǔ)言模型驚艷世人以前，

技術(shù)

及為人類(lèi)提供的能力主要集中在信息的檢索搜集層面。無(wú)論是搜索引擎還是電商娛樂(lè)，

都在幫助人類(lèi)在接近零成本的條件下獲取無(wú)限量信息。隨著大語(yǔ)言模型在涌現(xiàn)能力中的不斷升級(jí)，未來(lái)計(jì)

算機(jī)將有極大可能在行動(dòng)

和解決方案層面擁有人類(lèi)

能力或者超越人類(lèi)能力。認(rèn)知&學(xué)習(xí)行動(dòng)&解決方案大語(yǔ)言模型推動(dòng)了計(jì)算機(jī)認(rèn)知和

學(xué)習(xí)能力的拓展。

大語(yǔ)言模型呈現(xiàn)核心能力金字塔結(jié)構(gòu)進(jìn)階能力更為進(jìn)階的理解力核心能力認(rèn)知和學(xué)習(xí)能力進(jìn)階能力邏輯推理能力人類(lèi)情感理解和識(shí)別030102其他高階能力大語(yǔ)言模型概念抽象視覺(jué)識(shí)別文字理解編程能力數(shù)學(xué)法律醫(yī)學(xué)大模型產(chǎn)品測(cè)評(píng)結(jié)果和特征標(biāo)號(hào)權(quán)重一級(jí)分類(lèi)二級(jí)分類(lèi)具體任務(wù)測(cè)試方法題目類(lèi)型170%語(yǔ)言模型的

準(zhǔn)確性語(yǔ)義理解語(yǔ)言理解能力

-詞句級(jí)古詩(shī)文識(shí)記、中文分詞、中文分詞和詞性標(biāo)注、命名實(shí)體識(shí)別、實(shí)體關(guān)系抽取知識(shí)題、歷史題、詞句理解題語(yǔ)言理解能力

-篇章級(jí)閱讀理解、故事情節(jié)完形填空、幽默檢測(cè)知識(shí)題、商業(yè)寫(xiě)作題、文學(xué)題、幽默

題、中文特色寫(xiě)作題語(yǔ)言理解能力

-數(shù)據(jù)級(jí)語(yǔ)言抽象成表格商務(wù)制表題語(yǔ)法結(jié)構(gòu)根據(jù)給定條件，生成連貫文本摘要生成、數(shù)據(jù)到文本生成應(yīng)用寫(xiě)作題、商務(wù)寫(xiě)作題、中文特色寫(xiě)作題給出主題，

生成連貫文本制作多種類(lèi)型的文案商業(yè)寫(xiě)作題知識(shí)問(wèn)答知識(shí)問(wèn)答知識(shí)題、歷史題知識(shí)誤導(dǎo)知識(shí)題邏輯推理抽象給定應(yīng)用場(chǎng)景，執(zhí)行數(shù)學(xué)

計(jì)算任務(wù)數(shù)值計(jì)算數(shù)學(xué)題、商務(wù)制表題非數(shù)學(xué)邏輯推理MBA邏輯題邏輯推理題、編程類(lèi)代碼能力編程題上下文理解陌生概念的新詞理解幽默題知識(shí)題、中文特色推理題語(yǔ)境感知通過(guò)語(yǔ)境推測(cè)身份商務(wù)應(yīng)用題商務(wù)應(yīng)用寫(xiě)作題多語(yǔ)言能力完成涉及多種語(yǔ)言任務(wù)機(jī)器翻譯、跨語(yǔ)言摘要翻譯題多模態(tài)能力文生圖等多模態(tài)問(wèn)題多模態(tài)問(wèn)題

大語(yǔ)言模型綜合評(píng)價(jià)維度標(biāo)號(hào)權(quán)重一級(jí)分類(lèi)二級(jí)分類(lèi)具體任務(wù)測(cè)試方法題目類(lèi)型210%數(shù)據(jù)基礎(chǔ)專(zhuān)家訪談315%模型和算法的能力專(zhuān)家訪談45%安全和隱私安全性不會(huì)被惡意利用問(wèn)題測(cè)試安全問(wèn)題隱私性不會(huì)用戶的個(gè)人隱私信息問(wèn)題測(cè)試隱私問(wèn)題gpt-3.5-turboclaudeClaude-instantsosegpt-3.5-turbovicuna-13Bvicuna-13B文心一言V2.0.1（0523）通義千問(wèn)V1.0.1訊飛星火認(rèn)知大模型天工3.5

大語(yǔ)言模型綜合評(píng)價(jià)維度本次測(cè)評(píng)選取的大模型產(chǎn)品及使用版本海外產(chǎn)品使用版本國(guó)內(nèi)產(chǎn)品使用版本ChatGLM-6BMOSS-16B題目類(lèi)別問(wèn)題總量分類(lèi)題目數(shù)知識(shí)題60科學(xué)常識(shí)8歷史常識(shí)7醫(yī)學(xué)常識(shí)5法律常識(shí)5地理常識(shí)7生活常識(shí)8娛樂(lè)明星5購(gòu)物推薦10商業(yè)常識(shí)5詞句理解題40關(guān)鍵字提煉10語(yǔ)義相似判斷10怎么辦題10方言理解10商業(yè)寫(xiě)作題30營(yíng)銷(xiāo)文案寫(xiě)作（小紅書(shū)）7郵件寫(xiě)作5視頻腳本7訪談提綱5市場(chǎng)分析報(bào)告3市場(chǎng)運(yùn)營(yíng)報(bào)告3文學(xué)題30簡(jiǎn)單作文寫(xiě)作10對(duì)對(duì)聯(lián)5寫(xiě)詩(shī)詞5中文特色寫(xiě)作題10題目類(lèi)別問(wèn)題總量分類(lèi)題目數(shù)邏輯推理題38中文特色推理題9商務(wù)制表題5數(shù)學(xué)應(yīng)用題7幽默題7數(shù)學(xué)計(jì)算題10編程類(lèi)60代碼自動(dòng)補(bǔ)全15錯(cuò)誤提示和修復(fù)15文本摘要15lT知識(shí)問(wèn)答15翻譯題15編程翻譯題5英文閱讀理解5英文寫(xiě)作5多模態(tài)7文字輸入圖片回答5文字輸入語(yǔ)言輸出2上下文閱讀1010安全和隱私1010

大語(yǔ)言模型綜合測(cè)評(píng)題庫(kù)說(shuō)明.

根據(jù)第一、二章研究?jī)?nèi)容和本次測(cè)評(píng)的評(píng)價(jià)維度，本次問(wèn)題部分共300題，具體分布如下：排名測(cè)試類(lèi)型綜合得分率1安全和隱私95.50%2商務(wù)寫(xiě)作78.68%3文學(xué)題75.50%4語(yǔ)句理解題72.63%5翻譯題68.33%6知識(shí)題65.07%7編程題64.59%8上下文理解48.50%9邏輯推理34.74%10多模態(tài)-0.71%

寫(xiě)作能力和語(yǔ)句理解能力是目前大語(yǔ)言模型最為擅長(zhǎng)的能力板塊?

邏輯推理相關(guān)的

編程、推理和上下文理解目前整體表現(xiàn)仍有較大

的提升空間

多模態(tài)仍然是少數(shù)大語(yǔ)言模型的獨(dú)特優(yōu)勢(shì)大語(yǔ)言模型的基

礎(chǔ)能力整體表現(xiàn)

均排名更為靠前?排名大模型產(chǎn)品綜合得分率1ChatGPT77.13%2????74.98%3Claude68.29%4訊飛星火68.24%5Sage66.82%6天工3.562.03%7通義千問(wèn)53.74%8Moss51.52%9ChatGLM50.09%10vicuna-13B43.08%20

大語(yǔ)言模型綜合測(cè)試大語(yǔ)言模型綜合測(cè)試結(jié)果數(shù)據(jù)說(shuō)明：測(cè)評(píng)結(jié)果僅基于上文所列模型，測(cè)評(píng)截止時(shí)間為2023年5月25日題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率訪談提綱95%100%100%ChatGPT等文心一言等市場(chǎng)分析報(bào)告83.33%100%100%ChatGPT等文心一言等市場(chǎng)運(yùn)營(yíng)報(bào)告90%100%100%ChatGPT等文心一言等視頻腳本75%100%92.85%ChatGPT訊飛星火營(yíng)銷(xiāo)文案寫(xiě)作97.14%100%100%ChatGPT通義千問(wèn)等郵件寫(xiě)作95%100%100%ChatGPT文心一言等?商務(wù)寫(xiě)作題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?在十個(gè)模型中寫(xiě)作得分最高的為ChatGPT，得分率88.24%，國(guó)內(nèi)產(chǎn)品表現(xiàn)最好的為訊飛星火，

得分率為85.29%。?商務(wù)寫(xiě)作題部分，大語(yǔ)言模型表現(xiàn)均較為突出，其中訪談提綱和郵件寫(xiě)作都獲得了接近滿分的成績(jī)，而比較之下視頻腳本的寫(xiě)作仍然是大語(yǔ)言模型產(chǎn)品較不熟悉的領(lǐng)域。細(xì)分題目類(lèi)別得分率僅為75%。91.67%90.00%95.00%90.00%86.67%91.67%83.33%70.00%

大語(yǔ)言模型展現(xiàn)出優(yōu)秀的中文創(chuàng)意寫(xiě)作能力計(jì)算方法說(shuō)明：通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案，針對(duì)答案進(jìn)行評(píng)分，

即正確答案獲得2分，部分正確的答案獲得1分，

完全錯(cuò)誤的獲得0分，

模型表示不會(huì)做的獲得-1分；在統(tǒng)計(jì)得到總分后，

用模型得分比所在題目可獲得的

總分為該模型在這個(gè)類(lèi)別題目中的得分。例如，

A大模型在7道題目的類(lèi)別中總得分率為10，該類(lèi)題目可獲得的總得分率為7*2=14，則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。100.00%75.00%50.00%商務(wù)寫(xiě)作題整體得分率表

商務(wù)寫(xiě)作細(xì)分題目得分率Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5100.00%Claude國(guó)際模型國(guó)內(nèi)模型96.67%Moss題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率對(duì)聯(lián)題55%100%90%Sage訊飛星火簡(jiǎn)單寫(xiě)作題91%96%96%ChatGPT通義千問(wèn)詩(shī)詞寫(xiě)作題78%90%90%ChatGPT????中文特色寫(xiě)作題71%100%100.00%ChatGPT?????文學(xué)題主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?

在十個(gè)模型中寫(xiě)作得分最高的為ChatGPT和天工3.5，得分率88.33%?文學(xué)題部分，隨著寫(xiě)作難度的升高，

大語(yǔ)言模型表現(xiàn)的能力水平遞減。其中表現(xiàn)最好的板塊為簡(jiǎn)單寫(xiě)作題，得分率為91%；對(duì)聯(lián)題雖然很多模型表現(xiàn)的較好，

但是有一些模型對(duì)對(duì)對(duì)聯(lián)回答表現(xiàn)欠佳，

整體得分率最低為55%。83.33%73.33%58.33%83.33%83.33%65.00%66.67%

66.67%

即正確答案獲得2分，部分正確的答案獲得1分，

完全錯(cuò)誤的獲得0分，

模型表示不會(huì)做的獲得-1分；在統(tǒng)計(jì)得到總分后，

用模型得分比所在題目可獲得的

總分為該模型在這個(gè)類(lèi)別題目中的得分。例如，

A大模型在7道題目的類(lèi)別中總得分率為10，該類(lèi)題目可獲得的總得分率為7*2=14，則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。文學(xué)題整體得分率表

88.33%90.00%60.00%30.00%文學(xué)題細(xì)分題目得分率Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5Claude88.33%國(guó)際模型國(guó)內(nèi)模型Moss題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率方言理解40%45%80%ChatGPT天工3.5關(guān)鍵字提煉73.5%90%90%Claude????語(yǔ)義相似判斷84.50%100.00%90.00%ChatGPT????怎么辦題92.50%100%95%Sage?????語(yǔ)義理解題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?

在十個(gè)模型中語(yǔ)義理解得分最高的為文心一言，得分率85%，得分第二的為ChatGPT，得分率為81.25%。?在四個(gè)題目分類(lèi)中，大語(yǔ)言模型呈現(xiàn)很大的差異化分布，即怎么辦題獲得最高分率92.5%，而方言理解僅獲得得分率40%。當(dāng)然，本次測(cè)試的方言內(nèi)容為研究小組征集的相對(duì)較難的題目，在項(xiàng)目組人類(lèi)測(cè)試得分也相對(duì)較低。

中文方言理解題難倒大語(yǔ)言模型，整體準(zhǔn)確率僅為40%計(jì)算方法說(shuō)明：通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案，針對(duì)答案進(jìn)行評(píng)分，

即正確答案獲得2分，部分正確的答案獲得1分，

完全錯(cuò)誤的獲得0分，

模型表示不會(huì)做的獲得-1分；在統(tǒng)計(jì)得到總分后，

用模型得分比所在題目可獲得的

總分為該模型在這個(gè)類(lèi)別題目中的得分。例如，

A大模型在7道題目的類(lèi)別中總得分率為10，該類(lèi)題目可獲得的總得分率為7*2=14，則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。75.00%67.50%65.00%81.25

.75%77.50%詞句理解細(xì)分題目得分率詞句理解題整體得分率表Sagevicuna-13BMossChatGLM????通義千問(wèn)訊飛星火ChatGPT天工3.5Claude國(guó)際模型國(guó)內(nèi)模型57.50%85.00%60.00%30.00%90.00%77.50%61.25%題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率代碼自動(dòng)補(bǔ)全41.67%36.60%50%ChatGPT????錯(cuò)誤提示和修復(fù)82.50%86.11%83.33%ChatGPTVicuna-13B軟件安裝及環(huán)境65%70.00%70%Claude????Android相關(guān)74.38%94%75%Claude通義千問(wèn)?編程題目主要反映大語(yǔ)言模型產(chǎn)品進(jìn)階的邏輯推理能力。?

在十個(gè)模型中編程得分最高的為Claude，得分率73.47%，國(guó)內(nèi)產(chǎn)品表現(xiàn)最好的為文心一言，得分率為68.37%。?

在四個(gè)題目分類(lèi)中，大語(yǔ)言模型表現(xiàn)最好的題目分類(lèi)為錯(cuò)誤提示和修復(fù)，整體得分率為82.5%，而表現(xiàn)最差的是難度相對(duì)較高的代碼自動(dòng)補(bǔ)全類(lèi)題目，整體得

分率為41.67%。71.43

3.47%68.37%66.33%62.24%63.27%59.18%%7

國(guó)際產(chǎn)品編程能力顯著高于國(guó)內(nèi)產(chǎn)品計(jì)算方法說(shuō)明：通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案，針對(duì)答案進(jìn)行評(píng)分，

即正確答案獲得2分，部分正確的答案獲得1分，

完全錯(cuò)誤的獲得0分，

模型表示不會(huì)做的獲得-1分；在統(tǒng)計(jì)得到總分后，

用模型得分比所在題目可獲得的

總分為該模型在這個(gè)類(lèi)別題目中的得分。例如，

A大模型在7道題目的類(lèi)別中總得分率為10，該類(lèi)題目可獲得的總得分率為7*2=14，則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。90.00%60.00%30.00%編程細(xì)分題目得分率編程題整體得分率表MOSSChatGLM-6BSageVicuna-13B通義千問(wèn)訊飛星火????ChatGPT天工3.5Claude52.04%國(guó)際模型國(guó)內(nèi)模型68.37%61.22%題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率醫(yī)學(xué)常識(shí)86%90%90%ChatGPT訊飛星火購(gòu)物推薦85%90%90%Sage通義千問(wèn)IT知識(shí)問(wèn)答82.67%96.67%93.3%Sage訊飛星火法律常識(shí)68%80%80%ChatGPT文心一言等地理常識(shí)63.57%71.43%78.57%Claude訊飛星火商業(yè)常識(shí)55%70%70%ChatGPT????歷史常識(shí)50.71%64.28%71.42%ChatGPT????科學(xué)常識(shí)46.88%56.25%62.25%Claude訊飛星火娛樂(lè)明星24%20%60%ChatGPT?????知識(shí)題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?

在十個(gè)模型中知識(shí)得分最高的為文心一言，得分率73.33%，得分第二的為ChatGPT，得分率為72.67%。?在九個(gè)題目分類(lèi)中，大語(yǔ)言模型呈現(xiàn)很大的差異化分布，

即醫(yī)學(xué)常識(shí)獲得最高分率86%，而娛樂(lè)明星類(lèi)知識(shí)僅獲得24%。?除IT知識(shí)問(wèn)答題目外，其他八個(gè)題目分類(lèi)中國(guó)內(nèi)的大模型產(chǎn)品在中文知識(shí)環(huán)境中會(huì)的問(wèn)答表現(xiàn)整體接近或優(yōu)于國(guó)際大模型產(chǎn)品。60.00%

44.00%

中文知識(shí)題目，國(guó)內(nèi)模型表現(xiàn)明顯優(yōu)于國(guó)際模型計(jì)算方法說(shuō)明：通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案，針對(duì)答案進(jìn)行評(píng)分，

即正確答案獲得2分，部分正確的答案獲得1分，

完全錯(cuò)誤的獲得0分，

模型表示不會(huì)做的獲得-1分；在統(tǒng)計(jì)得到總分后，

用模型得分比所在題目可獲得的

總分為該模型在這個(gè)類(lèi)別題目中的得分。例如，

A大模型在7道題目的類(lèi)別中總得分率為10，該類(lèi)題目可獲得的總得分率為7*2=14，則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。知識(shí)題整體得分率表

國(guó)際模型73.33%

66.00

1.33%

65.33%

72.67%70.67%

67.33%30.00%

知識(shí)細(xì)分題目得分率Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT60.67%59.33%天工3.5Claude

國(guó)內(nèi)模型Moss90.00%題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率編程翻譯題79%100%90%ChatGPT????英文寫(xiě)作80.00%100%80%ChatGPT????英文閱讀理解46.00%90.00%80.00%Claude訊飛星火90.00%93.33%國(guó)際模型國(guó)內(nèi)模型.76.67%56.67%

56.67%60.00%50.00%33.33%?中文翻譯題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)語(yǔ)言的理解能力。?在十個(gè)模型中翻譯題得分最高的為Claude，得分率93.33%，國(guó)內(nèi)大語(yǔ)言模型得分最高的分別為文心—言。?在三個(gè)題目分類(lèi)中，大語(yǔ)言模型呈現(xiàn)很大的差異化分布，即英文寫(xiě)作題獲得最高分率80%，而英文閱讀理解僅獲得得分率46%。

國(guó)內(nèi)產(chǎn)品在跨語(yǔ)言翻譯中仍有較大的提升空間計(jì)算方法說(shuō)明：通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案，針對(duì)答案進(jìn)行評(píng)分，

即正確答案獲得2分，部分正確的答案獲得1分，

完全錯(cuò)誤的獲得0分，

模型表示不會(huì)做的獲得-1分；在統(tǒng)計(jì)得到總分后，

用模型得分比所在題目可獲得的

總分為該模型在這個(gè)類(lèi)別題目中的得分。例如，

A大模型在7道題目的類(lèi)別中總得分率為10，該類(lèi)題目可獲得的總得分率為7*2=14，則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。120.00%90.00%60.00%30.00%翻譯細(xì)分題目得分率翻譯題整體得分率表Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5ClaudeMoss83.33%%8333?邏輯推理題主要反映大語(yǔ)言模型產(chǎn)品的進(jìn)階能力，也是大語(yǔ)言模型最重要的理解力和判斷力。?

在十個(gè)模型中邏輯推理題得分最高的為ChatGPT得分率61.43%，國(guó)內(nèi)產(chǎn)品文心一言和訊飛星火，得分率60%。?在五個(gè)題目分類(lèi)中，大語(yǔ)言模型整體得分都低于基礎(chǔ)能力，得分最高的為幽默題，而得分最低的為商務(wù)制表題。分析原因，商務(wù)制表題不但需要搜集和識(shí)別內(nèi)

容還需要在內(nèi)容的基礎(chǔ)上做邏輯分類(lèi)和排序，整體難度較大。?值得一提的是中文特色推理題中，國(guó)內(nèi)模型領(lǐng)先國(guó)際模型得分較多，分析師認(rèn)為對(duì)中文內(nèi)容和邏輯的熟悉是核心原因。邏輯推理題整體得分率

邏輯推理細(xì)分題目得分率題目分布整體得分率國(guó)際最高分國(guó)內(nèi)最高分商務(wù)制表題26.00%50.00%50%ChatGPT????數(shù)學(xué)計(jì)算題55.00%45.00%ChatGPT訊飛星火數(shù)學(xué)應(yīng)用題39%85.71%86%Sage訊飛星火幽默題55.00%79%75%ChatGPT訊飛星火中文特色推理題31.67%44.44%61.11%ChatGPT????61.43%5286%

國(guó)內(nèi)模型60.00%60.00%.40.00%30.00%

21.43%

25.71%15.71%15.71%

邏輯推理能力挑戰(zhàn)整體較大，

國(guó)分產(chǎn)品表現(xiàn)接近GPT3.5計(jì)算方法說(shuō)明：通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案，針對(duì)答案進(jìn)行評(píng)分，

即正確答案獲得2分，部分正確的答案獲得1分，

完全錯(cuò)誤的獲得0分，

模型表示不會(huì)做的獲得-1分；在統(tǒng)計(jì)得到總分后，

用模型得分比所在題目可獲得的

總分為該模型在這個(gè)類(lèi)別題目中的得分。例如，

A大模型在7道題目的類(lèi)別中總得分率為10，該類(lèi)題目可獲得的總得分率為7*2=14，則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。90.00%60.00%30.00%0.00%Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5Claude

國(guó)際模型Moss26.50%大語(yǔ)言模型產(chǎn)品未來(lái)發(fā)展展望

芯片門(mén)檻74.29%GPT4

邏輯題目得分率60%國(guó)內(nèi)產(chǎn)品邏輯題目最高得分率

國(guó)內(nèi)大語(yǔ)言模型發(fā)展挑戰(zhàn)仍然巨大，需要時(shí)間來(lái)突破

數(shù)據(jù)和語(yǔ)料門(mén)檻?國(guó)內(nèi)大語(yǔ)言模型能

人人文庫(kù)> 全部分類(lèi)> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大語(yǔ)言模型綜合能力評(píng)測(cè)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大語(yǔ)言模型綜合能力評(píng)測(cè)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔