一、行業(yè)相關(guān)定義
多模態(tài)(Multimodality)是指集成和處理兩種或兩種以上不同類(lèi)型的信息或數(shù)據(jù)的方法和技術(shù)。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,多模態(tài)涉及的數(shù)據(jù)類(lèi)型通常包括但不限于文本、圖像、視頻、音頻和傳感器數(shù)據(jù)。多模態(tài)系統(tǒng)的目的是利用來(lái)自多種模態(tài)的信息來(lái)提高任務(wù)的性能,提供更豐富的用戶(hù)體驗(yàn),或者獲得更全面的數(shù)據(jù)分析結(jié)果。
多模態(tài)大模型就是一種能夠理解和處理多種類(lèi)型的機(jī)器學(xué)習(xí)模型——而類(lèi)型也被叫做模態(tài),包括文本,圖片,音頻,視頻等。這種模型可以融合多種不同模態(tài)的信息,執(zhí)行更復(fù)雜和智能的任務(wù);如視覺(jué)問(wèn)答(AI 面試官),圖文生成,語(yǔ)音識(shí)別與合成等。
二、行業(yè)市場(chǎng)規(guī)模
根據(jù)觀(guān)研報(bào)告網(wǎng)發(fā)布的《中國(guó)多模態(tài)大模型行業(yè)現(xiàn)狀深度研究與發(fā)展前景分析報(bào)告(2025-2032年)》顯示,多模態(tài)模型通過(guò)融合語(yǔ)言模態(tài)與圖像模態(tài),將語(yǔ)言模態(tài)包含的文本理解與思維鏈能力投射在圖像模態(tài)上,賦予了模型圖像理解與生成功能。從 AI 技術(shù)范式來(lái)看,多模態(tài)技術(shù)通過(guò)預(yù)訓(xùn)練+調(diào)參的方式顛覆了傳統(tǒng)機(jī)器視覺(jué)小模型 CNN 高度定制化的業(yè)務(wù)模式,模型的泛用性大幅度提高。
在市場(chǎng)需求的增長(zhǎng)以及政策支持的背景下,我國(guó)大模型市場(chǎng)規(guī)模將不斷增長(zhǎng),預(yù)計(jì)到2025年市場(chǎng)規(guī)模將突破300億元。而多模態(tài)大模型作為AI模型的發(fā)展方向,在各項(xiàng)相關(guān)技術(shù)愈發(fā)成熟下,其應(yīng)用領(lǐng)域也將愈發(fā)廣泛,比如說(shuō)商業(yè)定制、游戲和影視等。2024年上半年,國(guó)內(nèi)多模態(tài)大模型行業(yè)市場(chǎng)規(guī)模為33.33億元,具體如下:
資料來(lái)源:觀(guān)研天下數(shù)據(jù)中心整理
三、行業(yè)供應(yīng)規(guī)模
2023年生成式人工智能概念興起至今,國(guó)產(chǎn)生成式人工智能大模型如雨后春筍般涌現(xiàn)。截至目前,我國(guó)已初步構(gòu)建了較為全面的人工智能產(chǎn)業(yè)體系,相關(guān)企業(yè)超過(guò)4500家,核心產(chǎn)業(yè)規(guī)模已接近6000億元人民幣,產(chǎn)業(yè)鏈覆蓋芯片、算法、數(shù)據(jù)、平臺(tái)、應(yīng)用等上下游關(guān)鍵環(huán)節(jié)。
產(chǎn)品數(shù)量方面,生成式人工智能產(chǎn)品在我國(guó)百花齊放。截至2024年7月,我國(guó)完成備案并上線(xiàn)、能為公眾提供服務(wù)的生成式人工智能服務(wù)大模型已達(dá)190多個(gè),我國(guó)以大模型為代表的人工智能普及率達(dá)16.4%。
產(chǎn)業(yè)融合方面,生成式人工智能與各行各業(yè)的融合正在我國(guó)加速落地。生成式人工智能與制造業(yè)、農(nóng)業(yè)、醫(yī)療、教育等傳統(tǒng)行業(yè)深度融合,推動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),促進(jìn)新業(yè)態(tài)、新模式的不斷涌現(xiàn)。尤其在2024年,隨著生成式人工智能技術(shù)的日趨成熟,各大科技企業(yè)的模型調(diào)用價(jià)格顯著下降,從而明顯降低了其他行業(yè)對(duì)生成式人工智能技術(shù)的應(yīng)用成本。
截至2024年11月,我國(guó)共有309個(gè)生成式人工智能產(chǎn)品完成備案,北京、上海、廣東三省的生成式人工智能備案產(chǎn)品數(shù)量占比分別達(dá)到31.1%、27.2%和11.7%。
生成式人工智能產(chǎn)品完成備案數(shù)量(截止2024年11月)
屬地 | 數(shù)量 | 屬地 | 數(shù)量 |
北京 | 96 | 上海 | 84 |
廣東 | 36 | 浙江 | 25 |
江蘇 | 18 | 四川 | 9 |
貴州 | 5 | 湖南 | 4 |
山東 | 4 | 天津 | 4 |
河北 | 3 | 重慶 | 3 |
海南 | 2 | 安徽 | 1 |
福建 | 1 | 河南 | 1 |
黑龍江 | 1 | 湖北 | 1 |
江西 | 1 | 遼寧 | 1 |
寧夏 | 1 | 陜西 | 1 |
云南 | 1 | 國(guó)資委 | 6 |
資料來(lái)源:中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,觀(guān)研天下數(shù)據(jù)中心整理
2024年以來(lái), 國(guó)內(nèi)Al 大模型Q技術(shù)和應(yīng)用逐漸從文本擴(kuò)展至更多模態(tài)。隨著OpenAI發(fā)布GPT-4系列多模態(tài)版本,掀起了國(guó)內(nèi)外多模態(tài)理解大模型的研發(fā)熱潮和廣泛應(yīng)用。
市場(chǎng)主流多模態(tài)大模型產(chǎn)品
模型名稱(chēng) | 所屬團(tuán)隊(duì) | 屬地 | 類(lèi)型 |
ChatGPT-4o-latest | OpenAI | 海外 | 閉源 |
GPT-4o-2024-05-13 | OpenAI | 海外 | 閉源 |
Step-1V-8k | 階躍星辰 | 國(guó)內(nèi) | 閉源 |
hunyuan-vision | 騰訊 | 國(guó)內(nèi) | 閉源 |
SenseChat-Vision 5.5 | 商湯 | 國(guó)內(nèi) | 閉源 |
Claude-3.5-Sonnet | Anthropic | 海外 | 閉源 |
InternVL2-40B | 上海人工智能實(shí)驗(yàn)室 | 國(guó)內(nèi) | 開(kāi)源 |
Gemini-1.5-Pro | 海外 | 閉源 | |
ERNIE-4-Turbo | 百度 | 國(guó)內(nèi) | 閉源 |
Qwen2-VL-72B | 阿里云 | 國(guó)內(nèi) | 開(kāi)源 |
GLM-4V-Plus | 智譜AI | 國(guó)內(nèi) | 閉源 |
MiniCPM-V2.6 | 面壁智能 | 國(guó)內(nèi) | 開(kāi)源 |
GPT-4Turbo-0409 | OpenAI | 海外 | 閉源 |
海螺AI | MiniMax | 國(guó)內(nèi) | 閉源 |
Yi-Vision | 零一萬(wàn)物 | 國(guó)內(nèi) | 閉源 |
DeekSeek-VL-7b-chat | 深度求索 | 國(guó)內(nèi) | 開(kāi)源 |
Phi-3.5-vision-Instruct | 微軟 | 海外 | 開(kāi)源 |
資料來(lái)源:SuperCLUE-V,觀(guān)研天下數(shù)據(jù)中心整理
四、行業(yè)細(xì)分市場(chǎng)分析
1、C端市場(chǎng)
在面向C端用戶(hù)的,通用行政辦公類(lèi)應(yīng)用和消費(fèi)服務(wù)應(yīng)用受AI大模型影響的智能化升級(jí)節(jié)奏更快,產(chǎn)品化落地較快,其主因是在數(shù)據(jù)可采集的渠道更加豐富且受監(jiān)管的要求較低。2024年上半年中國(guó)多模態(tài)大模型toC市場(chǎng)規(guī)模約為20.00億元左右,具體如下:
資料來(lái)源:觀(guān)研天下數(shù)據(jù)中心整理
2、B端市場(chǎng)
面向B端用戶(hù)的,專(zhuān)業(yè)化程度較高的領(lǐng)域,例如醫(yī)療、金融、工業(yè)等行業(yè)的智能化升級(jí)需要更多專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù)訓(xùn)練,相應(yīng)的商業(yè)化節(jié)奏較慢,其主因是行業(yè)的特殊性導(dǎo)致數(shù)據(jù)安全要求較高、試錯(cuò)成本高、受監(jiān)管要求較高等。2024年上半年中國(guó)多模態(tài)大模型toB市場(chǎng)規(guī)模約為13.33億元左右,具體如下:
資料來(lái)源:觀(guān)研天下數(shù)據(jù)中心整理
五、行業(yè)競(jìng)爭(zhēng)格局
在大模型領(lǐng)域,國(guó)際巨頭布局大模型較早,或投資或自研(微軟作為 OpenAI 最大股東、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等),并利用大模型賦能各自原有的強(qiáng)勢(shì)業(yè)務(wù)線(xiàn),做產(chǎn)業(yè)升級(jí)。比如微軟用 GPT-4 賦能 Azure 云服務(wù)、Office365、搜索業(yè)務(wù)等;谷歌和 Meta 利用大模型生成創(chuàng)意廣告文案/圖片賦能廣告主,抑或是在廣告業(yè)務(wù)的多個(gè)環(huán)節(jié)提升精準(zhǔn)度和效率。該模式常見(jiàn)于大廠(chǎng),大模型+原有業(yè)務(wù)即利用大模型的語(yǔ)言能力提升傳統(tǒng)業(yè)務(wù)的智能化水平,同時(shí)利用傳統(tǒng)業(yè)務(wù)積累的龐大數(shù)據(jù)資源反哺大模型持續(xù)迭代。
國(guó)內(nèi)大模型的性能加速追趕海外。OpenCompass 于 2023 年 7 月由上海人工智能實(shí)驗(yàn)室推出,構(gòu)建了一套中英文雙語(yǔ)評(píng)測(cè)基準(zhǔn),旨在系統(tǒng)性分析國(guó)內(nèi)外大模型的綜合客觀(guān)性能。通過(guò)其 24 年 1 月的榜單,我們觀(guān)測(cè)到智譜清言 GLM-4、阿里巴巴 Qwen-Max 和百度文心一言 4.0 具有較為全面的性能,在語(yǔ)言和知識(shí)等基礎(chǔ)能力維度上可比肩 GPT-4 Turbo。
目前,多模態(tài)是主流的迭代路徑,互聯(lián)網(wǎng)大廠(chǎng)利用生態(tài)優(yōu)勢(shì)將多模態(tài)能力融進(jìn)具體使用場(chǎng)景。和海外相似,國(guó)內(nèi)大模型的迭代方向也能捕捉到多模態(tài)的趨勢(shì)。如百度文心一言的多模態(tài)體現(xiàn)在 toB 平臺(tái)“智能云千帆”,幫企業(yè)將大模型運(yùn)用到需要文生圖、文生視頻的場(chǎng)景;訊飛星火則將多模態(tài)能力落地在教師助手、口語(yǔ)訓(xùn)練等教育場(chǎng)景。多模態(tài)的訓(xùn)練對(duì)參數(shù)規(guī)模和算力支持要求更高,芯片供給側(cè)的緊缺也一定程度上成為各平臺(tái)算力擴(kuò)張的阻礙。
國(guó)內(nèi)大模型規(guī)格對(duì)比
模型名稱(chēng) | 參數(shù) | 模態(tài) | 上下文窗口 (tokens) | 是否開(kāi)源 | 所屬公司 |
文心一言 4.0 | 超萬(wàn)億 | 多模態(tài)(文本、視頻、圖像、音頻) | 約 2.8 萬(wàn)字 | 否 | 百度 |
ChatGLM-6B | / | 多模態(tài)(文本、圖像) | 12.8 萬(wàn) | 是 | 智譜 AI |
Qwen-72B | 720 億 | 多模態(tài)(文本、視頻、圖像、音頻) | 3 萬(wàn) | 是 | 阿里 |
盤(pán)古 3.0 | 100/380/710/1000 億(四個(gè)版本) | 多模態(tài)(文本、圖像) | - | 否 | 華為 |
星火開(kāi)源-13B | 130 億 | 多模態(tài)(文本、視頻、圖像、音頻) | - | 是 | 科大訊飛 |
資料來(lái)源:觀(guān)研天下數(shù)據(jù)中心整理
總體上,目前,我國(guó)多模態(tài)大模型企業(yè)不斷發(fā)展,如百度、騰訊、阿里巴巴、字節(jié)跳動(dòng)、華為等,憑借強(qiáng)大的技術(shù)實(shí)力、海量的數(shù)據(jù)資源、充足的資金支持以及豐富的行業(yè)經(jīng)驗(yàn),在多模態(tài)大模型領(lǐng)域占據(jù)重要地位。例如,百度的文心大模型在 2024 年 11 月的日均 tokens 調(diào)用量超過(guò) 1.5 億次,用戶(hù)規(guī)模達(dá) 7000 萬(wàn);騰訊的混元大模型上線(xiàn)視頻生成能力,引發(fā)關(guān)注;字節(jié)跳動(dòng)的豆包視覺(jué)理解模型以低價(jià)格吸引眾多客戶(hù)。
人工智能創(chuàng)業(yè)公司方面,以智譜 AI 為代表的初創(chuàng)企業(yè),通過(guò)技術(shù)創(chuàng)新和產(chǎn)品差異化,在市場(chǎng)中脫穎而出,獲得了一定的市場(chǎng)份額和用戶(hù)認(rèn)可。如智譜 AI 完成 30 億元人民幣的新一輪融資,其 C 端產(chǎn)品 “清言” 用戶(hù)數(shù)達(dá) 2500 萬(wàn),商業(yè)化收入實(shí)現(xiàn)超 100% 的增長(zhǎng)。
科研院所和高校方面,像北京智源研究院、清華大學(xué)等,在大模型評(píng)測(cè)等方面取得優(yōu)秀成果,為行業(yè)發(fā)展提供了技術(shù)支持和理論指導(dǎo),推動(dòng)了多模態(tài)大模型技術(shù)的進(jìn)步。(WWTQ)

【版權(quán)提示】觀(guān)研報(bào)告網(wǎng)倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。未經(jīng)許可,任何人不得復(fù)制、轉(zhuǎn)載、或以其他方式使用本網(wǎng)站的內(nèi)容。如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┌鏅?quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至kf@chinabaogao.com,我們將及時(shí)溝通與處理。