




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大語(yǔ)言模型綜合能力測(cè)評(píng)報(bào)告20231桌面研究通過(guò)對(duì)行業(yè)公開(kāi)信息進(jìn)行桌面研
究,資料包括但不限于專(zhuān)業(yè)機(jī)構(gòu)學(xué)術(shù)論文、文章資料、論壇討論、研究報(bào)告、相關(guān)廠商產(chǎn)品介紹、
相關(guān)專(zhuān)家公開(kāi)演講內(nèi)容等。
研究方法說(shuō)明結(jié)合桌面研究和專(zhuān)家訪談進(jìn)行觀
點(diǎn)沉淀和交流,并經(jīng)由報(bào)告形式InfoQ研究中心針對(duì)本次研究
定向邀請(qǐng)了國(guó)內(nèi)外的相關(guān)專(zhuān)家2專(zhuān)家訪談進(jìn)行訪談。3InfoQ
分析對(duì)外展示。目錄CONTENTS02大模型產(chǎn)品特征和核心能力03大模型產(chǎn)品測(cè)評(píng)結(jié)果和特征大模型產(chǎn)品未來(lái)發(fā)展展望大模型發(fā)展背景0104大模型發(fā)展背景2019?
OpenAI發(fā)布GPT-2并部分開(kāi)源?
谷歌推出
BERT模型2020?
百度推出可以準(zhǔn)確理解語(yǔ)義的ERNINE2.02023?
某著名企業(yè)基于ChatGPT發(fā)布New
Bing?FaceBook發(fā)布LLaMA-13B?
谷歌發(fā)布Bard以應(yīng)對(duì)ChatGPT?復(fù)旦團(tuán)隊(duì)發(fā)布MOSS
大語(yǔ)言模型發(fā)展經(jīng)過(guò)三階段在2023年進(jìn)入爆發(fā)階段2021?
OpenAI推出能實(shí)現(xiàn)文本生成圖像
的DALL-E模型?
FaceBook推出CLIP模型?
華為正式發(fā)布盤(pán)古大模型?
OpenAI推出Codex?
通義千問(wèn)、盤(pán)古NLP、天工3.5、星火等國(guó)產(chǎn)大模型陸續(xù)發(fā)布?
谷歌更新Bard并推出PaLM
2模型?
某著名企業(yè)宣布Windows系統(tǒng)全方位集成Copilot?
OpenAI發(fā)布GPT-4并實(shí)現(xiàn)圖像識(shí)別?
百度文心一言發(fā)布?
某著名企業(yè)宣布將GPT-4接入Office全家桶2017?
谷歌推出用于處理自然語(yǔ)言任務(wù)
的Transformer
神經(jīng)網(wǎng)絡(luò)架構(gòu)2022?
OpenAI
推出
ChatGPT-3.52018?
OpenAI
發(fā)布
GPT-1大語(yǔ)言模型爆發(fā)階段大語(yǔ)言模型誕生階段大語(yǔ)言模型探索階段Google
)GoogleDeepMind
OMeta
BloomT0BloomZstability.aiStable
Diffusion
StableLMLaMDAPaLMPaLM-ET5ImagenFlanGopherChinchillaGatoLLaMAMMSOPT-175BGPT-4DALL·E2CodeXstanforduniversityDolly
2.0LIMA-65BAl21studioJurassic-1JumboClaudeGPT-J
6Bvicuna-13bG
Bard
BingChat
ChatGPTAN
Claude斜杠
門(mén)出門(mén)間間序列猴子
WPSAI
有道youdao
??
曹植
雪湖
·海若
知海圖AIN寫(xiě)作貓
ChatJD
從容
其他應(yīng)用
悟道
文心
通義icea
二郎神inspur浪潮
源1.0言犀
日日新Tencen↑騰訊
混元基礎(chǔ)模型
星火基礎(chǔ)模型ChatBot
國(guó)內(nèi)外廠商齊發(fā)力,大語(yǔ)言模型產(chǎn)業(yè)規(guī)??捎^其他應(yīng)用Noton
AI
Cedille
AI
9
CopilotColab
Copilot為云盤(pán)古天河天元大模型
玉言自研大模型基礎(chǔ)模型MathGPTChatBot國(guó)
外國(guó)
內(nèi)大語(yǔ)言模型產(chǎn)品研發(fā)需要同時(shí)具備三大要素,
分別為數(shù)據(jù)資源要素、算法和模型要素、資金和資源要素。InfoQ研究中心分某省市場(chǎng)中的產(chǎn)品特征,
數(shù)據(jù)
資源、資金和資源兩要素為大模型研發(fā)的基礎(chǔ)要素,
即必要不充分要素。雖然數(shù)據(jù)、資金資源為大語(yǔ)言模型研發(fā)設(shè)置了高門(mén)檻,
但對(duì)于實(shí)力雄厚的大型企業(yè)仍然是挑戰(zhàn)較小的。算法和模型是目前區(qū)分大語(yǔ)言模型研發(fā)能力的核心要素。算法和模型影響的的模型豐富度、模型準(zhǔn)確性、能力涌現(xiàn)等都成為評(píng)價(jià)大語(yǔ)言模型優(yōu)劣的核心指標(biāo)。算法和模型?模型訓(xùn)練的形式?涌現(xiàn)出的思維鏈?基于人類(lèi)反饋的學(xué)習(xí)模型
大語(yǔ)言模型研發(fā)的關(guān)鍵影響要素資金和資源?頂級(jí)開(kāi)發(fā)者構(gòu)建的大規(guī)模研發(fā)團(tuán)隊(duì)?昂貴的GPU背后的大規(guī)模資金投入數(shù)據(jù)資源?模型參數(shù)規(guī)模?訓(xùn)練模型次數(shù)?訓(xùn)練使用的數(shù)據(jù)集核心要素基礎(chǔ)要素基礎(chǔ)要素百億參數(shù)是入場(chǎng)券GPT-3和LaMDA的數(shù)據(jù)顯示,在模型參數(shù)規(guī)模不超過(guò)100億-680億時(shí),大模型的很多能力(如計(jì)算能力)幾乎為零。大量計(jì)算觸發(fā)煉丹機(jī)制根據(jù)NVIDIA
研究論文里的附錄章節(jié)顯示,一次迭代的計(jì)算量約為4.5
ExaFLOPS
,而完整訓(xùn)練需要9500次迭代,完整訓(xùn)練的計(jì)算量即為430ZettaFLOPS(相當(dāng)于單片A100跑43.3年的計(jì)算量)。大量且豐富的數(shù)據(jù)集常見(jiàn)的數(shù)據(jù)集包括GSM8k
、USSE
、MMLU
、HumanEval等。O1.
模型參數(shù)規(guī)模O2.
模型計(jì)算量O3.
訓(xùn)練使用數(shù)據(jù)集?
模型在參數(shù)規(guī)模達(dá)到一定程度后,性能首先得到急劇提升,同時(shí)涌現(xiàn)的能力。特別是任務(wù)所訓(xùn)練的模型適用于更多以前訓(xùn)練的任務(wù)。涌現(xiàn)對(duì)大型模型應(yīng)用的影響非常重要,只有通過(guò)這種能力,我們才能高效地實(shí)現(xiàn)模型的泛化,并實(shí)現(xiàn)模型的遷移。
大語(yǔ)言模型訓(xùn)練之需要足夠“?”數(shù)據(jù)來(lái)源:
Sparks
ofArtificial
General
Intelligence
Early
experimentswith
GPT-4國(guó)內(nèi)未公布參數(shù)規(guī)模?
自研大模型(字節(jié))?
1+N認(rèn)知智能大模型(科大訊飛)?
二郎神模型(
IDEA研究院)?自研AI大模型(光年之外)?
自研大模型(燧原科技)?
超擬人大模型(聆心智能)?
自研大模型(香依科技)?
魔力寫(xiě)作(竹間智能)?自研大模型(MiniMax)?
蛋白質(zhì)大模型(浙江大學(xué)杭州國(guó)
際科創(chuàng)中心)?書(shū)生3.5
(商)?(瀾舟科技)?DriveGPT
(毫末智行)?ChatGLM
(某著名企業(yè))國(guó)內(nèi)模型參數(shù)規(guī)模
>100億?ERNIE
3.0
(百度)?盤(pán)古(華為)?MOSS(某著名企業(yè))?遵義(阿里)?言犀(京東)?混元(騰訊)?伏羲(網(wǎng)易)?源1.0(某著名企業(yè))?
行業(yè)精靈(云從科技)?八卦爐(達(dá)摩院)?
元語(yǔ)大模型(莫塔社區(qū))?
曹植大模型(達(dá)觀數(shù)據(jù))?
紫東太初(中科院自動(dòng)化研究所)?
自研大模型(西湖星辰)?悟道2.0
(智源研究院)?
GPT-4(OpenAI)未公開(kāi),推測(cè)為超過(guò)50000億?
PaLM(Google)
5400億?
BERT(Google)
4810億?
GPT-3.5(OpenAI)
1750億?
LaMDA(Google)1370億?
Galatica(Meta)1200億?
LLaMDA(Meta)
650億?
Chinchilla(DeepMind)700
億?
Claude
(Anthropic)
520億?
Mineva
(Google)
5400億?國(guó)內(nèi)大模型出現(xiàn)大量參數(shù)規(guī)模大于100億的模型?百度研發(fā)的Ernie和華為研發(fā)的盤(pán)古目前是有數(shù)據(jù)的國(guó)內(nèi)大模型參數(shù)規(guī)模的領(lǐng)先者?國(guó)際領(lǐng)先的大模型GPT-4據(jù)推測(cè)參數(shù)規(guī)模量級(jí)可達(dá)5萬(wàn)億以上
大模型訓(xùn)練參數(shù)規(guī)模量級(jí)最高或達(dá)5萬(wàn)億以上國(guó)內(nèi)模型參數(shù)規(guī)模
<100億國(guó)際模型參數(shù)規(guī)模資料來(lái)源:民生證券研究院和wiki百科訓(xùn)練方式直接決定大模型產(chǎn)出的效率,
根據(jù)已經(jīng)公開(kāi)的論文解讀,現(xiàn)有優(yōu)秀模型訓(xùn)練方式呈現(xiàn)高度工程化特征。
工程化訓(xùn)練方式主要呈現(xiàn)三個(gè)特征:1
、詳細(xì)而嚴(yán)格的規(guī)則:對(duì)于如何處理數(shù)據(jù)和什么是高質(zhì)量數(shù)據(jù)等給出詳細(xì)和嚴(yán)格的執(zhí)行和判斷的方法論;2
、明確定義標(biāo)注意圖:如詳細(xì)說(shuō)明標(biāo)注原因,
并要求如果標(biāo)注人員不能完全理解,則迅速跳出流程;3、團(tuán)隊(duì)培訓(xùn)和考核機(jī)制完善:通過(guò)評(píng)分等方式,持續(xù)保證團(tuán)隊(duì)處在目標(biāo)水準(zhǔn)以上。模型訓(xùn)練技術(shù)(舉例)Chain
of
Thought通過(guò)分解訓(xùn)練過(guò)程為較小的相互關(guān)聯(lián)的
任務(wù)來(lái)訓(xùn)練模型的方法。這種方法的目
的是使模型能夠理解和維護(hù)文本中的思維鏈,從而生成連貫的、上下文相關(guān)的
響應(yīng)。自研閉源元模型:典型代表包括OpenAI的GPT3.5
、GPT4等,國(guó)內(nèi)廠商百度的原模型ERNIE3.0、華為的元模型PanGu-Σ等
。自研開(kāi)源元模型:典型代表包括OpenAI的GPT2
、Google的BERT等。在開(kāi)源模型基礎(chǔ)上微調(diào)的模型:典型代表包括某著名企業(yè)的ChatGLM-6B、商和某著名企業(yè)開(kāi)源中文語(yǔ)言模型駱駝
Luotuo等。
算法和訓(xùn)練模型水平主導(dǎo)大語(yǔ)言模型的能力表現(xiàn)Human
Feedback通過(guò)人類(lèi)給予反饋對(duì)模型形成獎(jiǎng)勵(lì)機(jī)制,
幫助模型進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。這種方
法可以在預(yù)訓(xùn)練模型和產(chǎn)某省市場(chǎng)后持續(xù)獲得反饋,幫助模型增強(qiáng)判斷力。Instruction-tuning通過(guò)為模型提供任務(wù)相關(guān)的指令來(lái)指導(dǎo)模型學(xué)習(xí)的方法。這種方法的目的是使模型更好地理解任務(wù)的要求,并提高其
生成能力和上下文理解能力。Prompt-tuning使用自然語(yǔ)言提示(prompt)
的
方法,以指導(dǎo)模型生成特定的輸出。這種方法的目的是通過(guò)對(duì)模型進(jìn)行定向訓(xùn)練,使其在特定任務(wù)上表現(xiàn)出更好的性能。在開(kāi)源模型基礎(chǔ)上微調(diào)的模型自研閉源元模型自研開(kāi)源元模型訓(xùn)練方式
工程化基礎(chǔ)模型人工智能領(lǐng)域中自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等領(lǐng)域目前均為對(duì)開(kāi)發(fā)者要求最高的技術(shù)領(lǐng)域之一,
需要開(kāi)發(fā)者擁有優(yōu)秀的教育背景和前沿技術(shù)背景。另外,
對(duì)于團(tuán)隊(duì)磨合、經(jīng)驗(yàn)等要求均較為嚴(yán)格。從目前公布的部分大模型研發(fā)團(tuán)隊(duì)背景可以看出,團(tuán)隊(duì)成員均來(lái)自國(guó)際頂級(jí)高?;驌碛许敿?jí)科研經(jīng)驗(yàn)。根據(jù)谷歌披露數(shù)據(jù),訓(xùn)練參數(shù)規(guī)模
1750
億的大模型,理想訓(xùn)練費(fèi)用超過(guò)
900
萬(wàn)美元。類(lèi)似的,計(jì)算服務(wù)為了實(shí)現(xiàn)覆蓋的產(chǎn)品和功能范圍的廣度,要求云服務(wù)提供商持續(xù)進(jìn)行產(chǎn)品功能更新和產(chǎn)品矩陣建設(shè)來(lái)滿足用戶多元需求,
Amazon
和
持續(xù)進(jìn)行大額資本
投入以完善產(chǎn)品能力。2022
年Amazon
和
的資本性支出分別達(dá)
583
億美元和
315
億美元,并仍然呈現(xiàn)上漲趨勢(shì)。人才和資本都對(duì)大語(yǔ)言模型提出了高密度的要求高密度人才團(tuán)隊(duì)
高密度資本加持大模型產(chǎn)品核心能力解讀搜索大語(yǔ)言模型將計(jì)算機(jī)能力從搜索拓展到認(rèn)知
&
學(xué)習(xí)和行動(dòng)
&
解決方案層面
大語(yǔ)言模型的發(fā)展帶來(lái)了大規(guī)模技術(shù)革命的希望通過(guò)海量數(shù)據(jù)的預(yù)訓(xùn)練模型,大
語(yǔ)言模型擁有了很多方面接近于人類(lèi)認(rèn)知的能力。而在涌現(xiàn)能力的加持下,大語(yǔ)言
模型也逐漸擁有了更為準(zhǔn)確的邏輯推理能力,這—能力體現(xiàn)為人
類(lèi)的學(xué)習(xí)能力。在大語(yǔ)言模型驚艷世人以前,
技術(shù)
及為人類(lèi)提供的能力主要集中在信息的檢索搜集層面。無(wú)論是搜索引擎還是電商娛樂(lè),
都在幫助人類(lèi)在接近零成本的條件下獲取無(wú)限量信息。隨著大語(yǔ)言模型在涌現(xiàn)能力中的不斷升級(jí),未來(lái)計(jì)
算機(jī)將有極大可能在行動(dòng)
和解決方案層面擁有人類(lèi)
能力或者超越人類(lèi)能力。認(rèn)知&學(xué)習(xí)行動(dòng)&解決方案大語(yǔ)言模型推動(dòng)了計(jì)算機(jī)認(rèn)知和
學(xué)習(xí)能力的拓展。
大語(yǔ)言模型呈現(xiàn)核心能力金字塔結(jié)構(gòu)進(jìn)階能力更為進(jìn)階的理解力核心能力認(rèn)知和學(xué)習(xí)能力進(jìn)階能力邏輯推理能力人類(lèi)情感理解和識(shí)別030102其他高階能力大語(yǔ)言模型概念抽象視覺(jué)識(shí)別文字理解編程能力數(shù)學(xué)法律醫(yī)學(xué)大模型產(chǎn)品測(cè)評(píng)結(jié)果和特征標(biāo)號(hào)權(quán)重一級(jí)分類(lèi)二級(jí)分類(lèi)具體任務(wù)測(cè)試方法題目類(lèi)型170%語(yǔ)言模型的
準(zhǔn)確性語(yǔ)義理解語(yǔ)言理解能力
-詞句級(jí)古詩(shī)文識(shí)記、中文分詞、中文分詞和詞性標(biāo)注、命名實(shí)體識(shí)別、實(shí)體關(guān)系抽取知識(shí)題、歷史題、詞句理解題語(yǔ)言理解能力
-篇章級(jí)閱讀理解、故事情節(jié)完形填空、幽默檢測(cè)知識(shí)題、商業(yè)寫(xiě)作題、文學(xué)題、幽默
題、中文特色寫(xiě)作題語(yǔ)言理解能力
-數(shù)據(jù)級(jí)語(yǔ)言抽象成表格商務(wù)制表題語(yǔ)法結(jié)構(gòu)根據(jù)給定條件,生成連貫文本摘要生成、數(shù)據(jù)到文本生成應(yīng)用寫(xiě)作題、商務(wù)寫(xiě)作題、中文特色寫(xiě)作題給出主題,
生成連貫文本制作多種類(lèi)型的文案商業(yè)寫(xiě)作題知識(shí)問(wèn)答知識(shí)問(wèn)答知識(shí)題、歷史題知識(shí)誤導(dǎo)知識(shí)題邏輯推理抽象給定應(yīng)用場(chǎng)景,執(zhí)行數(shù)學(xué)
計(jì)算任務(wù)數(shù)值計(jì)算數(shù)學(xué)題、商務(wù)制表題非數(shù)學(xué)邏輯推理MBA邏輯題邏輯推理題、編程類(lèi)代碼能力編程題上下文理解陌生概念的新詞理解幽默題知識(shí)題、中文特色推理題語(yǔ)境感知通過(guò)語(yǔ)境推測(cè)身份商務(wù)應(yīng)用題商務(wù)應(yīng)用寫(xiě)作題多語(yǔ)言能力完成涉及多種語(yǔ)言任務(wù)機(jī)器翻譯、跨語(yǔ)言摘要翻譯題多模態(tài)能力文生圖等多模態(tài)問(wèn)題多模態(tài)問(wèn)題
大語(yǔ)言模型綜合評(píng)價(jià)維度標(biāo)號(hào)權(quán)重一級(jí)分類(lèi)二級(jí)分類(lèi)具體任務(wù)測(cè)試方法題目類(lèi)型210%數(shù)據(jù)基礎(chǔ)專(zhuān)家訪談315%模型和算法的能力專(zhuān)家訪談45%安全和隱私安全性不會(huì)被惡意利用問(wèn)題測(cè)試安全問(wèn)題隱私性不會(huì)用戶的個(gè)人隱私信息問(wèn)題測(cè)試隱私問(wèn)題gpt-3.5-turboclaudeClaude-instantsosegpt-3.5-turbovicuna-13Bvicuna-13B文心一言V2.0.1(0523)通義千問(wèn)V1.0.1訊飛星火認(rèn)知大模型天工3.5
大語(yǔ)言模型綜合評(píng)價(jià)維度本次測(cè)評(píng)選取的大模型產(chǎn)品及使用版本海外產(chǎn)品使用版本國(guó)內(nèi)產(chǎn)品使用版本ChatGLM-6BMOSS-16B題目類(lèi)別問(wèn)題總量分類(lèi)題目數(shù)知識(shí)題60科學(xué)常識(shí)8歷史常識(shí)7醫(yī)學(xué)常識(shí)5法律常識(shí)5地理常識(shí)7生活常識(shí)8娛樂(lè)明星5購(gòu)物推薦10商業(yè)常識(shí)5詞句理解題40關(guān)鍵字提煉10語(yǔ)義相似判斷10怎么辦題10方言理解10商業(yè)寫(xiě)作題30營(yíng)銷(xiāo)文案寫(xiě)作(小紅書(shū))7郵件寫(xiě)作5視頻腳本7訪談提綱5市場(chǎng)分析報(bào)告3市場(chǎng)運(yùn)營(yíng)報(bào)告3文學(xué)題30簡(jiǎn)單作文寫(xiě)作10對(duì)對(duì)聯(lián)5寫(xiě)詩(shī)詞5中文特色寫(xiě)作題10題目類(lèi)別問(wèn)題總量分類(lèi)題目數(shù)邏輯推理題38中文特色推理題9商務(wù)制表題5數(shù)學(xué)應(yīng)用題7幽默題7數(shù)學(xué)計(jì)算題10編程類(lèi)60代碼自動(dòng)補(bǔ)全15錯(cuò)誤提示和修復(fù)15文本摘要15lT知識(shí)問(wèn)答15翻譯題15編程翻譯題5英文閱讀理解5英文寫(xiě)作5多模態(tài)7文字輸入圖片回答5文字輸入語(yǔ)言輸出2上下文閱讀1010安全和隱私1010
大語(yǔ)言模型綜合測(cè)評(píng)題庫(kù)說(shuō)明.
根據(jù)第一、二章研究?jī)?nèi)容和本次測(cè)評(píng)的評(píng)價(jià)維度,本次問(wèn)題部分共300題,具體分布如下:排名測(cè)試類(lèi)型綜合得分率1安全和隱私95.50%2商務(wù)寫(xiě)作78.68%3文學(xué)題75.50%4語(yǔ)句理解題72.63%5翻譯題68.33%6知識(shí)題65.07%7編程題64.59%8上下文理解48.50%9邏輯推理34.74%10多模態(tài)-0.71%
寫(xiě)作能力和語(yǔ)句理解能力是目前大語(yǔ)言模型最為擅長(zhǎng)的能力板塊?
邏輯推理相關(guān)的
編程、推理和上下文理解目前整體表現(xiàn)仍有較大
的提升空間
多模態(tài)仍然是少數(shù)大語(yǔ)言模型的獨(dú)特優(yōu)勢(shì)大語(yǔ)言模型的基
礎(chǔ)能力整體表現(xiàn)
均排名更為靠前?排名大模型產(chǎn)品綜合得分率1ChatGPT77.13%2????74.98%3Claude68.29%4訊飛星火68.24%5Sage66.82%6天工3.562.03%7通義千問(wèn)53.74%8Moss51.52%9ChatGLM50.09%10vicuna-13B43.08%20
大語(yǔ)言模型綜合測(cè)試大語(yǔ)言模型綜合測(cè)試結(jié)果數(shù)據(jù)說(shuō)明:測(cè)評(píng)結(jié)果僅基于上文所列模型,測(cè)評(píng)截止時(shí)間為2023年5月25日題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率訪談提綱95%100%100%ChatGPT等文心一言等市場(chǎng)分析報(bào)告83.33%100%100%ChatGPT等文心一言等市場(chǎng)運(yùn)營(yíng)報(bào)告90%100%100%ChatGPT等文心一言等視頻腳本75%100%92.85%ChatGPT訊飛星火營(yíng)銷(xiāo)文案寫(xiě)作97.14%100%100%ChatGPT通義千問(wèn)等郵件寫(xiě)作95%100%100%ChatGPT文心一言等?商務(wù)寫(xiě)作題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?在十個(gè)模型中寫(xiě)作得分最高的為ChatGPT,得分率88.24%,國(guó)內(nèi)產(chǎn)品表現(xiàn)最好的為訊飛星火,
得分率為85.29%。?商務(wù)寫(xiě)作題部分,大語(yǔ)言模型表現(xiàn)均較為突出,其中訪談提綱和郵件寫(xiě)作都獲得了接近滿分的成績(jī),而比較之下視頻腳本的寫(xiě)作仍然是大語(yǔ)言模型產(chǎn)品較不熟悉的領(lǐng)域。細(xì)分題目類(lèi)別得分率僅為75%。91.67%90.00%95.00%90.00%86.67%91.67%83.33%70.00%
大語(yǔ)言模型展現(xiàn)出優(yōu)秀的中文創(chuàng)意寫(xiě)作能力計(jì)算方法說(shuō)明:通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案,針對(duì)答案進(jìn)行評(píng)分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯(cuò)誤的獲得0分,
模型表示不會(huì)做的獲得-1分;在統(tǒng)計(jì)得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個(gè)類(lèi)別題目中的得分。例如,
A大模型在7道題目的類(lèi)別中總得分率為10,該類(lèi)題目可獲得的總得分率為7*2=14,則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。100.00%75.00%50.00%商務(wù)寫(xiě)作題整體得分率表
商務(wù)寫(xiě)作細(xì)分題目得分率Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5100.00%Claude國(guó)際模型國(guó)內(nèi)模型96.67%Moss題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率對(duì)聯(lián)題55%100%90%Sage訊飛星火簡(jiǎn)單寫(xiě)作題91%96%96%ChatGPT通義千問(wèn)詩(shī)詞寫(xiě)作題78%90%90%ChatGPT????中文特色寫(xiě)作題71%100%100.00%ChatGPT?????文學(xué)題主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?
在十個(gè)模型中寫(xiě)作得分最高的為ChatGPT和天工3.5,得分率88.33%?文學(xué)題部分,隨著寫(xiě)作難度的升高,
大語(yǔ)言模型表現(xiàn)的能力水平遞減。其中表現(xiàn)最好的板塊為簡(jiǎn)單寫(xiě)作題,得分率為91%;對(duì)聯(lián)題雖然很多模型表現(xiàn)的較好,
但是有一些模型對(duì)對(duì)對(duì)聯(lián)回答表現(xiàn)欠佳,
整體得分率最低為55%。83.33%73.33%58.33%83.33%83.33%65.00%66.67%
66.67%
大語(yǔ)言模型展現(xiàn)出優(yōu)秀的中文創(chuàng)意寫(xiě)作能力計(jì)算方法說(shuō)明:通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案,針對(duì)答案進(jìn)行評(píng)分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯(cuò)誤的獲得0分,
模型表示不會(huì)做的獲得-1分;在統(tǒng)計(jì)得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個(gè)類(lèi)別題目中的得分。例如,
A大模型在7道題目的類(lèi)別中總得分率為10,該類(lèi)題目可獲得的總得分率為7*2=14,則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。文學(xué)題整體得分率表
88.33%90.00%60.00%30.00%文學(xué)題細(xì)分題目得分率Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5Claude88.33%國(guó)際模型國(guó)內(nèi)模型Moss題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率方言理解40%45%80%ChatGPT天工3.5關(guān)鍵字提煉73.5%90%90%Claude????語(yǔ)義相似判斷84.50%100.00%90.00%ChatGPT????怎么辦題92.50%100%95%Sage?????語(yǔ)義理解題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?
在十個(gè)模型中語(yǔ)義理解得分最高的為文心一言,得分率85%,得分第二的為ChatGPT,得分率為81.25%。?在四個(gè)題目分類(lèi)中,大語(yǔ)言模型呈現(xiàn)很大的差異化分布,即怎么辦題獲得最高分率92.5%,而方言理解僅獲得得分率40%。當(dāng)然,本次測(cè)試的方言內(nèi)容為研究小組征集的相對(duì)較難的題目,在項(xiàng)目組人類(lèi)測(cè)試得分也相對(duì)較低。
中文方言理解題難倒大語(yǔ)言模型,整體準(zhǔn)確率僅為40%計(jì)算方法說(shuō)明:通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案,針對(duì)答案進(jìn)行評(píng)分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯(cuò)誤的獲得0分,
模型表示不會(huì)做的獲得-1分;在統(tǒng)計(jì)得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個(gè)類(lèi)別題目中的得分。例如,
A大模型在7道題目的類(lèi)別中總得分率為10,該類(lèi)題目可獲得的總得分率為7*2=14,則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。75.00%67.50%65.00%81.25
.75%77.50%詞句理解細(xì)分題目得分率詞句理解題整體得分率表Sagevicuna-13BMossChatGLM????通義千問(wèn)訊飛星火ChatGPT天工3.5Claude國(guó)際模型國(guó)內(nèi)模型57.50%85.00%60.00%30.00%90.00%77.50%61.25%題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率代碼自動(dòng)補(bǔ)全41.67%36.60%50%ChatGPT????錯(cuò)誤提示和修復(fù)82.50%86.11%83.33%ChatGPTVicuna-13B軟件安裝及環(huán)境65%70.00%70%Claude????Android相關(guān)74.38%94%75%Claude通義千問(wèn)?編程題目主要反映大語(yǔ)言模型產(chǎn)品進(jìn)階的邏輯推理能力。?
在十個(gè)模型中編程得分最高的為Claude,得分率73.47%,國(guó)內(nèi)產(chǎn)品表現(xiàn)最好的為文心一言,得分率為68.37%。?
在四個(gè)題目分類(lèi)中,大語(yǔ)言模型表現(xiàn)最好的題目分類(lèi)為錯(cuò)誤提示和修復(fù),整體得分率為82.5%,而表現(xiàn)最差的是難度相對(duì)較高的代碼自動(dòng)補(bǔ)全類(lèi)題目,整體得
分率為41.67%。71.43
3.47%68.37%66.33%62.24%63.27%59.18%%7
國(guó)際產(chǎn)品編程能力顯著高于國(guó)內(nèi)產(chǎn)品計(jì)算方法說(shuō)明:通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案,針對(duì)答案進(jìn)行評(píng)分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯(cuò)誤的獲得0分,
模型表示不會(huì)做的獲得-1分;在統(tǒng)計(jì)得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個(gè)類(lèi)別題目中的得分。例如,
A大模型在7道題目的類(lèi)別中總得分率為10,該類(lèi)題目可獲得的總得分率為7*2=14,則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。90.00%60.00%30.00%編程細(xì)分題目得分率編程題整體得分率表MOSSChatGLM-6BSageVicuna-13B通義千問(wèn)訊飛星火????ChatGPT天工3.5Claude52.04%國(guó)際模型國(guó)內(nèi)模型68.37%61.22%題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率醫(yī)學(xué)常識(shí)86%90%90%ChatGPT訊飛星火購(gòu)物推薦85%90%90%Sage通義千問(wèn)IT知識(shí)問(wèn)答82.67%96.67%93.3%Sage訊飛星火法律常識(shí)68%80%80%ChatGPT文心一言等地理常識(shí)63.57%71.43%78.57%Claude訊飛星火商業(yè)常識(shí)55%70%70%ChatGPT????歷史常識(shí)50.71%64.28%71.42%ChatGPT????科學(xué)常識(shí)46.88%56.25%62.25%Claude訊飛星火娛樂(lè)明星24%20%60%ChatGPT?????知識(shí)題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。?
在十個(gè)模型中知識(shí)得分最高的為文心一言,得分率73.33%,得分第二的為ChatGPT,得分率為72.67%。?在九個(gè)題目分類(lèi)中,大語(yǔ)言模型呈現(xiàn)很大的差異化分布,
即醫(yī)學(xué)常識(shí)獲得最高分率86%,而娛樂(lè)明星類(lèi)知識(shí)僅獲得24%。?除IT知識(shí)問(wèn)答題目外,其他八個(gè)題目分類(lèi)中國(guó)內(nèi)的大模型產(chǎn)品在中文知識(shí)環(huán)境中會(huì)的問(wèn)答表現(xiàn)整體接近或優(yōu)于國(guó)際大模型產(chǎn)品。60.00%
44.00%
中文知識(shí)題目,國(guó)內(nèi)模型表現(xiàn)明顯優(yōu)于國(guó)際模型計(jì)算方法說(shuō)明:通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案,針對(duì)答案進(jìn)行評(píng)分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯(cuò)誤的獲得0分,
模型表示不會(huì)做的獲得-1分;在統(tǒng)計(jì)得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個(gè)類(lèi)別題目中的得分。例如,
A大模型在7道題目的類(lèi)別中總得分率為10,該類(lèi)題目可獲得的總得分率為7*2=14,則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。知識(shí)題整體得分率表
國(guó)際模型73.33%
66.00
1.33%
65.33%
72.67%70.67%
67.33%30.00%
知識(shí)細(xì)分題目得分率Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT60.67%59.33%天工3.5Claude
國(guó)內(nèi)模型Moss90.00%題目分布整體得分率國(guó)際最高分率國(guó)內(nèi)最高分率編程翻譯題79%100%90%ChatGPT????英文寫(xiě)作80.00%100%80%ChatGPT????英文閱讀理解46.00%90.00%80.00%Claude訊飛星火90.00%93.33%國(guó)際模型國(guó)內(nèi)模型.76.67%56.67%
56.67%60.00%50.00%33.33%?中文翻譯題目主要反映大語(yǔ)言模型產(chǎn)品對(duì)語(yǔ)言的理解能力。?在十個(gè)模型中翻譯題得分最高的為Claude,得分率93.33%,國(guó)內(nèi)大語(yǔ)言模型得分最高的分別為文心—言。?在三個(gè)題目分類(lèi)中,大語(yǔ)言模型呈現(xiàn)很大的差異化分布,即英文寫(xiě)作題獲得最高分率80%,而英文閱讀理解僅獲得得分率46%。
國(guó)內(nèi)產(chǎn)品在跨語(yǔ)言翻譯中仍有較大的提升空間計(jì)算方法說(shuō)明:通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案,針對(duì)答案進(jìn)行評(píng)分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯(cuò)誤的獲得0分,
模型表示不會(huì)做的獲得-1分;在統(tǒng)計(jì)得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個(gè)類(lèi)別題目中的得分。例如,
A大模型在7道題目的類(lèi)別中總得分率為10,該類(lèi)題目可獲得的總得分率為7*2=14,則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。120.00%90.00%60.00%30.00%翻譯細(xì)分題目得分率翻譯題整體得分率表Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5ClaudeMoss83.33%%8333?邏輯推理題主要反映大語(yǔ)言模型產(chǎn)品的進(jìn)階能力,也是大語(yǔ)言模型最重要的理解力和判斷力。?
在十個(gè)模型中邏輯推理題得分最高的為ChatGPT得分率61.43%,國(guó)內(nèi)產(chǎn)品文心一言和訊飛星火,得分率60%。?在五個(gè)題目分類(lèi)中,大語(yǔ)言模型整體得分都低于基礎(chǔ)能力,得分最高的為幽默題,而得分最低的為商務(wù)制表題。分析原因,商務(wù)制表題不但需要搜集和識(shí)別內(nèi)
容還需要在內(nèi)容的基礎(chǔ)上做邏輯分類(lèi)和排序,整體難度較大。?值得一提的是中文特色推理題中,國(guó)內(nèi)模型領(lǐng)先國(guó)際模型得分較多,分析師認(rèn)為對(duì)中文內(nèi)容和邏輯的熟悉是核心原因。邏輯推理題整體得分率
邏輯推理細(xì)分題目得分率題目分布整體得分率國(guó)際最高分國(guó)內(nèi)最高分商務(wù)制表題26.00%50.00%50%ChatGPT????數(shù)學(xué)計(jì)算題55.00%45.00%ChatGPT訊飛星火數(shù)學(xué)應(yīng)用題39%85.71%86%Sage訊飛星火幽默題55.00%79%75%ChatGPT訊飛星火中文特色推理題31.67%44.44%61.11%ChatGPT????61.43%5286%
國(guó)內(nèi)模型60.00%60.00%.40.00%30.00%
21.43%
25.71%15.71%15.71%
邏輯推理能力挑戰(zhàn)整體較大,
國(guó)分產(chǎn)品表現(xiàn)接近GPT3.5計(jì)算方法說(shuō)明:通過(guò)實(shí)際測(cè)試獲得各模型對(duì)300道題目的答案,針對(duì)答案進(jìn)行評(píng)分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯(cuò)誤的獲得0分,
模型表示不會(huì)做的獲得-1分;在統(tǒng)計(jì)得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個(gè)類(lèi)別題目中的得分。例如,
A大模型在7道題目的類(lèi)別中總得分率為10,該類(lèi)題目可獲得的總得分率為7*2=14,則A大模型在這個(gè)題目類(lèi)別的得分率為10/14=71.43%。90.00%60.00%30.00%0.00%Sagevicuna-13BChatGLM通義千問(wèn)訊飛星火????ChatGPT天工3.5Claude
國(guó)際模型Moss26.50%大語(yǔ)言模型產(chǎn)品未來(lái)發(fā)展展望
芯片門(mén)檻74.29%GPT4
邏輯題目得分率60%國(guó)內(nèi)產(chǎn)品邏輯題目最高得分率
國(guó)內(nèi)大語(yǔ)言模型發(fā)展挑戰(zhàn)仍然巨大,需要時(shí)間來(lái)突破
數(shù)據(jù)和語(yǔ)料門(mén)檻?國(guó)內(nèi)大語(yǔ)言模型能
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小組研磨活動(dòng)方案
- 小學(xué)評(píng)先樹(shù)優(yōu)活動(dòng)方案
- 小班年俗活動(dòng)方案
- 小班發(fā)音活動(dòng)方案
- 展會(huì)活動(dòng)游戲策劃方案
- 居家活動(dòng)掃地活動(dòng)方案
- 小學(xué)英語(yǔ)特色活動(dòng)方案
- 小學(xué)組織義賣(mài)活動(dòng)方案
- 少兒田徑活動(dòng)方案
- 小組喚醒活動(dòng)方案
- 國(guó)家開(kāi)放大學(xué)《水利水電工程造價(jià)管理》形考任務(wù)1-4參考答案
- 《掃除道》樊登讀書(shū)文字版
- 教學(xué)演示文稿,建筑企業(yè)科技創(chuàng)新方法講座()
- 裝飾工程材料清單
- 模具年度保養(yǎng)計(jì)劃表
- 中國(guó)傳統(tǒng)節(jié)日文化中現(xiàn)代德育價(jià)值的研究課題結(jié)題報(bào)告
- DBJ61T1492018陜西省城鎮(zhèn)住區(qū)公共服務(wù)設(shè)施配置標(biāo)準(zhǔn).pdf
- 肺動(dòng)脈導(dǎo)管監(jiān)測(cè)的參數(shù)及意義
- 職稱(chēng)評(píng)審申報(bào)系統(tǒng)PPT課件
- 水利工程漿砌石工程監(jiān)理細(xì)則
- 成品檢驗(yàn)記錄
評(píng)論
0/150
提交評(píng)論