近日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院醫(yī)學(xué)成像全國(guó)重點(diǎn)實(shí)驗(yàn)室、醫(yī)工所醫(yī)學(xué)人工智能研究中心黃明強(qiáng)團(tuán)隊(duì)在大模型AI芯片領(lǐng)域取得重要進(jìn)展,其研究成果在電路與系統(tǒng)領(lǐng)域頂級(jí)期刊IEEE Transactions on Circuits and Systems I: Regular Papers上在線發(fā)表,論文題目為"EdgeLLM: A Highly Efficient CPU-FPGA Heterogeneous Edge Accelerator for Large Language Models"。該研究成功攻克人工智能大語(yǔ)言模型(LLM)在資源受限邊緣設(shè)備部署的核心難題,為智能機(jī)器人、便攜設(shè)備等場(chǎng)景的實(shí)時(shí)AI應(yīng)用提供了創(chuàng)新解決方案。
自2017年以來(lái),Transformer算法在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)(CV)研究領(lǐng)域迅速成為人工智能領(lǐng)域的主導(dǎo)力量。通過(guò)引入自注意力機(jī)制,Transformer改變了傳統(tǒng)的序列建模方法,不再依賴卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和序列處理。這一創(chuàng)新不僅增強(qiáng)了模型的并行化能力,使得大規(guī)模模型的訓(xùn)練成為可能,還顯著提升了模型性能。在Transformer取得成功之后,研究人員開(kāi)始探索更大的模型,這些模型通常擁有數(shù)百億甚至更多的參數(shù),被稱為“大語(yǔ)言模型”。大語(yǔ)言模型不僅增強(qiáng)了人工智能的語(yǔ)言處理能力,還推動(dòng)了AI更廣泛的技術(shù)進(jìn)步,為教育、娛樂(lè)、醫(yī)療和商業(yè)等行業(yè)帶來(lái)了革命性的變革。
但是大語(yǔ)言模型在資源受限的端側(cè)系統(tǒng)部署仍存在較大的困難。首先,大語(yǔ)言模型計(jì)算量龐大以及內(nèi)存訪問(wèn)需求極高?,F(xiàn)有解決方案通常將這些權(quán)重參數(shù)量化為INT4格式。然而,為了確保計(jì)算精度,模型中的激活函數(shù)仍然保持FP16格式。因此,在前饋神經(jīng)網(wǎng)絡(luò)(FFN)層中,系統(tǒng)需要支持FP16INT4格式的矩陣乘法。另一方面,在多頭注意力(MHA)模塊中,KV緩存作為激活數(shù)據(jù)動(dòng)態(tài)生成,因此涉及KV緩存的矩陣乘法需要FP16FP16格式。因此,設(shè)計(jì)混合精度計(jì)算單元以加速LLM變得尤為重要。我們分析了前饋網(wǎng)絡(luò)(FFN)和多頭注意力(MHA)的計(jì)算需求,提出了高效率的混合精度計(jì)算單元以及組脈動(dòng)陣列架構(gòu)。此外,我們還提出了對(duì)數(shù)尺度結(jié)構(gòu)化稀疏性和塊級(jí)量化方法,以在硬件效率和算法精度之間取得平衡。
此外,在大語(yǔ)言模型中,定義計(jì)算流程的算子圖極其復(fù)雜,包含數(shù)百甚至數(shù)千個(gè)以復(fù)雜方式相互連接的算子,確保從一個(gè)算子到另一個(gè)算子的過(guò)渡無(wú)縫且高效成為了一項(xiàng)重大挑戰(zhàn)。該團(tuán)隊(duì)分析了大語(yǔ)言模型中的編譯需求,設(shè)計(jì)了一種統(tǒng)一且通用的數(shù)據(jù)格式,適用于所有算子和AI算法中的高維張量結(jié)構(gòu),使系統(tǒng)能夠快速執(zhí)行算子操作而無(wú)需任何數(shù)據(jù)重排。隨后,開(kāi)發(fā)了端到端的編譯方案,其中動(dòng)態(tài)編譯用于處理不同輸入token長(zhǎng)度,指令流水線策略用于減少延遲。該方案能夠動(dòng)態(tài)編譯所有算子,并將整個(gè)模型映射到CPU-FPGA異構(gòu)系統(tǒng)上。
最終,整個(gè)設(shè)計(jì)成功部署在AMDXilinx VCU128 FPGA上。與GPU相比,該系統(tǒng)的吞吐量提高了1.91倍,能效提高了7.55倍;與最先進(jìn)的FPGA加速器FlightLLM相比,整體性能提升了10%到24%。該成果有望應(yīng)用于新一代具身智能機(jī)器人、手機(jī)AI大模型等應(yīng)用場(chǎng)景中。
中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院黃明強(qiáng)研究員為第一作者,南方科技大學(xué)深港微電子學(xué)院為合作單位。該研究得到了醫(yī)學(xué)成像科學(xué)與技術(shù)系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室、科技創(chuàng)新-2030重大科技項(xiàng)目的資助。
圖1:文章上線截圖
圖2:AI帶來(lái)革命性的變革
圖3:端側(cè)FPGA-大模型 推理系統(tǒng)
圖4:不同計(jì)算平臺(tái)的數(shù)據(jù)
附件下載: