在前天,國(guó)內(nèi)最高規(guī)格的AI產(chǎn)業(yè)盛會(huì)第七屆世界人工智能大會(huì)(WAIC 2024)開(kāi)幕,展區(qū)已成“大模型”主場(chǎng),各路玩家隔空斗法。
既有聞名業(yè)界的通用大模型大秀生成、理解能力,在金融、醫(yī)療等諸多領(lǐng)域施展拳腳的行業(yè)大模型,還有能直接部署在PC、服務(wù)器等邊緣設(shè)備的端側(cè)大模型效果驚艷。
可以看到從去年至今,大模型產(chǎn)業(yè)的發(fā)展焦點(diǎn)正在從技術(shù)突破向落地應(yīng)用外延。一方面,通用大模型表現(xiàn)驚艷,另一方面,距離用戶更近且性能已經(jīng)足夠強(qiáng)大的端側(cè)大模型呈現(xiàn)出規(guī)模化應(yīng)用潛力。
在這之中,隨著技術(shù)的成熟和應(yīng)用場(chǎng)景的拓展,端側(cè)大模型市場(chǎng)已經(jīng)成為AI領(lǐng)域的一個(gè)重要增長(zhǎng)點(diǎn),而端側(cè)大模型走向落地部署背后的一個(gè)關(guān)鍵角色就是底層芯片玩家。
WAIC上,一家清華系GPGPU創(chuàng)企的展臺(tái)上,我們看到其AI加速卡AzureBlade K340l已經(jīng)可以支撐大模型跑在AI PC等設(shè)備上,并已經(jīng)適配Llama 3-8B、Stable Diffusion、通義千問(wèn)等開(kāi)源模型。
這家創(chuàng)企的技術(shù)實(shí)力不容小覷。本月初,芯動(dòng)力科技團(tuán)隊(duì)聯(lián)手帝國(guó)理工、劍橋大學(xué)、清華大學(xué)、中山大學(xué)等頂尖學(xué)府的計(jì)算機(jī)架構(gòu)團(tuán)隊(duì),共同撰寫的論文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP芯片架構(gòu))成功被第51屆計(jì)算機(jī)體系結(jié)構(gòu)國(guó)際研討會(huì)(ISCA 2024)的Industry Track收錄。
據(jù)了解,Industry Track的錄取接收率僅為15.3%。同時(shí),芯動(dòng)力科技還受邀在ISCA 2024會(huì)議上發(fā)表演講,與Intel、AMD等國(guó)際知名企業(yè)同臺(tái)交流。
在WAIC上,我們可以看到以芯動(dòng)力科技為代表的國(guó)內(nèi)AI芯片玩家,已經(jīng)亮出了諸多技術(shù)成果與案例演示,為端側(cè)大模型部署落地裝上了加速引擎。
01.
“六邊形戰(zhàn)士”RPP架構(gòu)
破局邊緣大模型落地
大模型加速落地應(yīng)用現(xiàn)在已經(jīng)成為共識(shí),不過(guò)通用大模型很難理解企業(yè)的真實(shí)痛點(diǎn),讓企業(yè)真正用上大模型實(shí)現(xiàn)降本增效是當(dāng)前的重中之重。
但相比于面向消費(fèi)者的AI工具,企業(yè)對(duì)于大模型能力的要求更高,除了大模型本身的性能表現(xiàn)需要足夠優(yōu)越外,還有更為重要的幾點(diǎn)就是數(shù)據(jù)安全、響應(yīng)夠快,這也是跑在云上的大模型缺少的。
因此邊緣大模型脫穎而出,因?yàn)檫吘壴O(shè)備距離企業(yè)的業(yè)務(wù)或者用戶本身距離更近,且能夠支持本地私有化部署保證用戶的數(shù)據(jù)安全。與此同時(shí),底層的AI芯片就稱為AI落地邊緣端的必要條件。
這也導(dǎo)致邊緣大模型部署對(duì)AI加速卡的特性提出了更高要求。因?yàn)檫吘壎送挥幸粋€(gè)獨(dú)立設(shè)備,因此就需要芯片需要同時(shí)兼顧體積小、性能強(qiáng)、功耗低。當(dāng)下Llama系列、通義千問(wèn)等開(kāi)源模型,已經(jīng)在較小的參數(shù)規(guī)模下達(dá)到了較好的性能,能夠?qū)崿F(xiàn)很好的文升文、文生圖效果。這也為大模型在端側(cè)落地提供了機(jī)會(huì)。
還有更為重要的一點(diǎn)是,大模型的技術(shù)突破仍在不斷革新。為了讓大模型在資源有限的設(shè)備上部署,大模型量化部署精度正在從8bit向4bit支持,大模型的快速演變對(duì)芯片研發(fā)的長(zhǎng)周期,大投入提出了不小的挑戰(zhàn)。
這些難題在對(duì)芯片的性能及靈活性提出不小挑戰(zhàn)的同時(shí),也是大模型落地的必要條件。對(duì)于眾多專用芯片來(lái)講,這意味著需要開(kāi)展全新的芯片設(shè)計(jì)工作,而對(duì)芯動(dòng)力科技可重構(gòu)并行處理器架構(gòu)(RPP)來(lái)講,則僅需進(jìn)行一次軟件開(kāi)發(fā)即可。在面對(duì)邊緣大模型落地所面臨的難題時(shí),芯動(dòng)力科技的RPP架構(gòu)展現(xiàn)出其固有的天然優(yōu)勢(shì)。
在生成式AI日新月異的應(yīng)用場(chǎng)景中,唯一不變的就是變化本身。芯動(dòng)力構(gòu)建的通用性生態(tài)決定了,未來(lái)若出現(xiàn)除Transformer以外的新型算法基底,RPP架構(gòu)將能夠迅速完成算法的兼容與優(yōu)化,而無(wú)需改變硬件架構(gòu)。這使得RPP架構(gòu)擁有更持久的生命力和更廣闊的市場(chǎng)前景。
RPP架構(gòu)是針對(duì)并行計(jì)算設(shè)計(jì)的芯片架構(gòu),芯動(dòng)力將其稱作“六邊形戰(zhàn)士”。這一架構(gòu)既結(jié)合了NPU的高效率與GPU的高通用性優(yōu)勢(shì),更具備DSP的低延時(shí),可滿足高效并行計(jì)算及AI計(jì)算應(yīng)用,如圖像計(jì)算、視覺(jué)計(jì)算、信號(hào)處理計(jì)算等,大大提高了系統(tǒng)的實(shí)時(shí)性和響應(yīng)速度。
芯動(dòng)力首款基于可重構(gòu)架構(gòu)的GPGPU芯片RPP-R8每顆芯片內(nèi)含有1024個(gè)計(jì)算核,相比傳統(tǒng)GPU架構(gòu)在同樣的算力占用更小的芯片面積,實(shí)現(xiàn)了低功耗和高能效的有效平衡。RPP-R8除了具備專用芯片所沒(méi)有的通用編程性,面積效率比可達(dá)到同類產(chǎn)品的7~10倍,能效比也超過(guò)3倍。