青碰视频在线观看|亚洲日韩在线91|久久黄色电影久久|久久久精品www|日韩国产免费基地|一区二区三区蜜桃|欧美专区在线视频|欧美亚洲精品熟女|99久久精品色欲|影音欧美中文一类

華為發(fā)布AI推理新技術(shù) 中國銀聯(lián)大模型效率提高125倍
來源:21世紀(jì)經(jīng)濟(jì)報道作者:倪雨晴2025-08-14 09:38

8月12日,華為發(fā)布了AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器,Unified Cache Manager)。

簡單來說,這是專門面向大模型推理過程的“緩存管理技術(shù)”,目的是為了優(yōu)化推理速度、效率和成本。

具體來看,UCM是一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴大推理上下文窗口,以實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。

現(xiàn)場,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰表示,UCM推理記憶數(shù)據(jù)管理器旨在推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循環(huán)。同時,華為聯(lián)手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點應(yīng)用,并聯(lián)合發(fā)布智慧金融AI推理加速方案應(yīng)用成果。

UCM是什么

什么是KV Cache?

據(jù)了解,KV Cache是一種用于優(yōu)化Transformer等模型推理速度的技術(shù),它的核心思想就是把歷史token的Key和Value(矩陣)緩存下來,下次生成時直接用,避免重新算,從而提升推理速度、降低計算成本。代價是會占用更多內(nèi)存,所以它是一種“用內(nèi)存換計算”的工程優(yōu)化手段。

換言之,KV Cache是一種存儲機制,打個比方,就像是“模型推理過程中的記憶本”,用來臨時保存計算中間結(jié)果,讓后續(xù)步驟少做重復(fù)工作。

那么為什么要推出UCM?因為推理過程中仍存在不少痛點。

隨著AI產(chǎn)業(yè)已從“追求模型能力的極限”轉(zhuǎn)向“追求推理體驗的最優(yōu)化”,推理體驗直接關(guān)聯(lián)用戶滿意度、商業(yè)可行性等。推理體驗直接關(guān)系到用戶與AI交互時的感受,包括回答問題的時延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等方面。

資料顯示,國外主流模型的單用戶輸出速度已進(jìn)入200Tokens/s區(qū)間(時延5ms),而我國普遍小于60 Tokens/s(時延50~100ms),因此,如何解決推理效率與用戶體驗的難題迫在眉睫。目前,包括華為在內(nèi),各大科技企業(yè)都會在調(diào)度KV Cache基礎(chǔ)上,研發(fā)優(yōu)化推理過程的技術(shù)。

華為最新的UCM就引入融合了更多的算法工具,可以對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)、高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協(xié)同,實現(xiàn)AI推理“更優(yōu)體驗、更低成本”。

比如,華為介紹道,依托UCM層級化自適應(yīng)的全局前綴緩存技術(shù),系統(tǒng)能直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計算,使首Token時延最大降低90%。

據(jù)悉,在華為與中國銀聯(lián)的聯(lián)合創(chuàng)新技術(shù)試點中,中國銀聯(lián)“客戶之聲”業(yè)務(wù)場景下,借助UCM技術(shù)及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準(zhǔn)識別客戶高頻問題,促進(jìn)服務(wù)質(zhì)量提升。

為何率先在金融行業(yè)應(yīng)用?金融業(yè)天然有數(shù)字化屬性,也是數(shù)字化最早的領(lǐng)域之一,因此金融行業(yè)率先落地有數(shù)據(jù)基礎(chǔ)和技術(shù)需求,尤其是生成式AI浪潮中,如何用好大模型服務(wù)業(yè)務(wù)是重要課題。同時金融對速度、效率、安全、可靠性等要求高,也是驗證技術(shù)的標(biāo)桿場景。

未來,中國銀聯(lián)將依托國家人工智能應(yīng)用中試基地,聯(lián)合華為等生態(tài)伙伴共建“AI+金融”示范應(yīng)用,推動技術(shù)成果從“實驗室驗證”走向“規(guī)?;瘧?yīng)用”。

華為的差異化路徑

談及UCM的差異化,華為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構(gòu)師向21世紀(jì)經(jīng)濟(jì)報道記者表示,當(dāng)前,業(yè)界在分級緩存管理方面已有許多探索與實踐,華為UCM在這一領(lǐng)域的最大優(yōu)勢在于將專業(yè)存儲能力引入其中,引入后在軟硬件協(xié)同與卸載方面做了大量工作,例如直通加速、KV檢索索引與底層文件系統(tǒng)元數(shù)據(jù)的融合等。同時,在KV Cache生命周期管理方面,UCM具備預(yù)熱、分級、淘汰等一整套機制,這是UCM在N級緩存管理上的差異化能力之一。

其次,上述專家提到,在算法加速庫方面,業(yè)界現(xiàn)有方案普遍只停留在Prefix Cache這一層面,并未像華為一樣,將稀疏全流程算法、后綴檢索算法等投入商用,也缺乏多樣化的技術(shù)手段。相比之下,UCM在這一層貢獻(xiàn)了更多、更豐富、更可靠的算法,算法庫還在不斷擴展完善。

此外,UCM的體系更加完整,專家談道,推理場景多種多樣,請求的輸入輸出變化極大,而目前業(yè)界缺乏一套在各種場景下都能普適的框架、加速機制與算法。UCM能夠在各種長短序列、不同請求條件下,實現(xiàn)自動切換與自適應(yīng)的平滑優(yōu)化。

“華為希望通過將部分成果開放,促進(jìn)框架廠商、存儲廠商以及算力廠商共同加速這一框架機制的成熟,最終解決當(dāng)前AI行業(yè)落地過程中的效率與成本問題?!睂<艺f道。

今天,華為還正式公布了UCM開源計劃。UCM通過開放統(tǒng)一的南北向接口,可適配多類型推理引擎框架、算力及存儲系統(tǒng)。今年9月,UCM將正式開源,后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),和全產(chǎn)業(yè)共同推動AI推理生態(tài)的繁榮發(fā)展。

整體而言,一方面是華為在AI推理技術(shù)層面持續(xù)進(jìn)行研發(fā),UCM也是結(jié)合華為存儲技術(shù)的積累進(jìn)行創(chuàng)新;另一方面,在AI的布局上,華為繼續(xù)在產(chǎn)業(yè)鏈的各個環(huán)節(jié)進(jìn)行升級,實現(xiàn)系統(tǒng)性的提升。

業(yè)內(nèi)人士指出,國外領(lǐng)先芯片廠商通過硬件迭代、軟件優(yōu)化、生態(tài)綁定構(gòu)建了推理時代的“鐵三角”,短期內(nèi)難以被代替。中國單點硬件技術(shù),如芯片設(shè)計上有所突破,但國產(chǎn)軟件及生態(tài)適配還有差距,華為等科技廠商也在不斷補上生態(tài)短板。

正如華為專家所言:“大家一定要關(guān)注網(wǎng)絡(luò)、存儲、端到端的系統(tǒng)性、成本降低,才能有效的去加速AI的落地。從單點的算力模組轉(zhuǎn)向系統(tǒng)性優(yōu)化,這是大趨勢。”

責(zé)任編輯: 陳勇洲
聲明:證券時報力求信息真實、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實質(zhì)性投資建議,據(jù)此操作風(fēng)險自擔(dān)
下載“證券時報”官方APP,或關(guān)注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換