熟女久久中文,黄91久久久人妻,日本黄五区,青青久久久,色999日韩,欧美熟女草逼,99国内精品久久,色天使亚洲,人妻丰满精品一区二

正在閱讀:性能提升10倍,首Token時(shí)延降低72%丨新華三X20000存儲(chǔ)KV Cache方案助力AI推理效率提升

性能提升10倍,首Token時(shí)延降低72%丨新華三X20000存儲(chǔ)KV Cache方案助力AI推理效率提升

2026-03-04 13:55:09來源:新華三 關(guān)鍵詞:新華三存儲(chǔ)閱讀量:25716

導(dǎo)讀:X20000存儲(chǔ)通過EPC私有客戶端,將每個(gè)6MB文件自動(dòng)切分為1MB粒度進(jìn)行分布式并發(fā)處理。這種細(xì)粒度切分機(jī)制,將單次KV訪問轉(zhuǎn)化為多通道并發(fā)讀寫,數(shù)據(jù)均勻分布至多個(gè)存儲(chǔ)節(jié)點(diǎn)與引擎,使訪問天然具備并行性,從而有效降低單路徑阻塞概率。
  據(jù)IDC預(yù)測,2026年中國智能算力規(guī)模將達(dá)2024年的兩倍,其中推理算力增速將遠(yuǎn)超過訓(xùn)練,到2027年中國智能算力中推理占比將提高到72.6%。隨著大模型推理進(jìn)入規(guī)模化落地階段,KV Cache 通過“以存換算”的思路,節(jié)省了GPU算力、提高了推理效率,成為AI推理應(yīng)用落地的主流方案。
 
  但隨著8K、16K、32K乃至更大上下文長度逐漸普及,KV Cache的規(guī)模呈線性增長;在多并發(fā)場景下,KV數(shù)據(jù)讀寫壓力更是呈指數(shù)級(jí)放大。比如,在Llama-405B上運(yùn)行一個(gè)具有64K上下文的單個(gè)用戶需要15.75GB KV緩存,當(dāng)擴(kuò)展到32個(gè)用戶時(shí),容量需求將飆升至504GB。如何高效承載KV Cache,已經(jīng)成為AI推理基礎(chǔ)設(shè)施架構(gòu)中的核心議題。
 
  此外,隨著AI推理走入我們的日常生活,衡量應(yīng)用體驗(yàn)和系統(tǒng)效率的關(guān)鍵指標(biāo)——TTFT(Time To First Token,首次輸出Token時(shí)延)被越來越多用戶關(guān)注。TTFT不僅直接影響推理應(yīng)用的用戶交互體驗(yàn),更決定單位時(shí)間內(nèi)可承載的有效請求數(shù)。
 
  實(shí)現(xiàn)架構(gòu)級(jí)優(yōu)化
 
  目前,將KV Cache從GPU顯存中卸載已經(jīng)成為行業(yè)共識(shí)。相比本地SSD,外置分布式存儲(chǔ)具備更強(qiáng)的橫向擴(kuò)展能力,能夠?qū)V訪問轉(zhuǎn)化為并行模型,且提供全局?jǐn)?shù)據(jù)共享,支持大規(guī)模PD分離部署。這意味著在模型規(guī)模持續(xù)擴(kuò)大、上下文不斷拉長、并發(fā)請求持續(xù)增長的情況下,存儲(chǔ)系統(tǒng)仍然能夠保持可控的TTFT與穩(wěn)定的吞吐能力。
 
  基于這一趨勢,H3C UniStor X20000 AI原生存儲(chǔ)圍繞KV Cache場景進(jìn)行了系統(tǒng)級(jí)協(xié)同調(diào)優(yōu),使“外置存儲(chǔ)承載KV Cache”從概念方案真正演進(jìn)為生產(chǎn)級(jí)可用架構(gòu)。
 
  X20000存儲(chǔ)通過EPC私有客戶端,將每個(gè)6MB文件自動(dòng)切分為1MB粒度進(jìn)行分布式并發(fā)處理。這種細(xì)粒度切分機(jī)制,將單次KV訪問轉(zhuǎn)化為多通道并發(fā)讀寫,數(shù)據(jù)均勻分布至多個(gè)存儲(chǔ)節(jié)點(diǎn)與引擎,使訪問天然具備并行性,從而有效降低單路徑阻塞概率。
 
  同時(shí),針對KV文件分布扁平、目錄與文件數(shù)量接近1:1的特點(diǎn),X20000對目錄與文件分布進(jìn)行均衡優(yōu)化,使數(shù)據(jù)在存儲(chǔ)引擎間實(shí)現(xiàn)更均勻分布,進(jìn)一步降低訪問時(shí)延波動(dòng)。這種優(yōu)化邏輯的核心在于:不是單純提升單盤性能,而是將KV Cache讀寫行為重構(gòu)為“分布式并發(fā)訪問模型”。這是一種架構(gòu)級(jí)優(yōu)化,而非參數(shù)級(jí)優(yōu)化。
 
  測試數(shù)據(jù):KV Cache卸載至X20000后TTFT最高降低72%
 
  圍繞KV Cache卸載場景,實(shí)測數(shù)據(jù)顯示,當(dāng)KV Cache命中率達(dá)到90%時(shí),將KV數(shù)據(jù)卸載至X20000分布式存儲(chǔ),TTFT得到大幅度優(yōu)化。
 
  ◆ 測試環(huán)境:
 
  ■ GPU:  A100 * 4
 
  ■ 推理引擎:vLLM 0.9.2
 
  ■ 模型:Qwen2.5-14B
 
  ◆ UCM:性能最大提升6倍
 
  ■ 在90% KV Cache命中條件下,將KV Cache卸載至X20000存儲(chǔ),相比純GPU計(jì)算模式,TTFT平均優(yōu)化超過4倍,最大接近6倍。
 
  ■ 在相同條件下,X20000的TTFT僅為本地SSD的28%~44%,最高下降72%。
 
  ■ 系統(tǒng)可擴(kuò)展能力提升4倍,在TTFT不超過2秒的約束下,采用X20000存儲(chǔ)承載KV Cache后,模型的上下文長度可由8K擴(kuò)展至32K,實(shí)現(xiàn)4倍提升,并發(fā)能力可由4路提升至16路,同樣實(shí)現(xiàn)4倍擴(kuò)展。
 
  ◆ LMCache:性能最大提升10倍
 
  ■ 在90% KV Cache命中條件下,將KV Cache卸載至X20000存儲(chǔ),相比純GPU計(jì)算模式,TTFT最大優(yōu)化10倍。
 
  ■ 系統(tǒng)可擴(kuò)展能力提升4倍,在TTFT不超過2秒的約束下,采用X20000存儲(chǔ)承載KV Cache后,模型的上下文長度可實(shí)現(xiàn)8倍擴(kuò)展,并發(fā)能力同樣實(shí)現(xiàn)8倍提升。在16K上下文場景中,不同并發(fā)條件下普遍達(dá)到10倍以上性能提升。
 
  ◆ 并發(fā)與上下文持續(xù)拉升,時(shí)延曲線依然平滑
 
  同時(shí),隨著并發(fā)數(shù)量或上下文長度持續(xù)增加,X20000的TTFT增長曲線保持相對平緩,而GPU純算模式與本地NVMe SSD方案則呈現(xiàn)明顯陡峭上升趨勢。也就是說,當(dāng)系統(tǒng)進(jìn)入真實(shí)生產(chǎn)負(fù)載階段——多用戶并發(fā)、多輪長對話、持續(xù)高壓訪問——X20000所承載的KV Cache訪問路徑更具穩(wěn)定性與可預(yù)測性。
 
  X20000為AI應(yīng)用構(gòu)建可擴(kuò)展的數(shù)據(jù)底座
 
  在大模型推理進(jìn)入規(guī)?;a(chǎn)階段后,KV Cache已成為影響系統(tǒng)承載能力與用戶體驗(yàn)的關(guān)鍵因素。作為AI原生存儲(chǔ),X20000通過重構(gòu)KV Cache訪問路徑,實(shí)現(xiàn)最大10倍性能提升,TTFT最大降低72%,并發(fā)能力提升4到8倍,幫助客戶實(shí)現(xiàn)更高推理效率、更大模型承載、更高并發(fā)能力,為AI應(yīng)用構(gòu)建可擴(kuò)展的數(shù)據(jù)底座。
我要評論
文明上網(wǎng),理性發(fā)言。(您還可以輸入200個(gè)字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。

  • 數(shù)據(jù)海嘯下的智慧燈塔:存儲(chǔ)風(fēng)波中的挑戰(zhàn)與企業(yè)應(yīng)對

    一場由人工智能驅(qū)動(dòng)、席卷全球存儲(chǔ)產(chǎn)業(yè)鏈的“超級(jí)周期”,正將智慧城市等數(shù)據(jù)密集型行業(yè)推向變革的前沿。在此背景下,領(lǐng)軍企業(yè)依據(jù)自身基因,展開了一場精彩紛呈的戰(zhàn)略博弈,其推出的多元技術(shù)路徑不僅是對當(dāng)前挑戰(zhàn)的直接回應(yīng),更在重塑產(chǎn)業(yè)未來的競爭格局。
    存儲(chǔ)大模型
    2026-01-19 11:49:31
  • 南京市6G產(chǎn)業(yè)聯(lián)盟正式啟動(dòng),攜手新華三共建“6G之城”

    南京市作為全國信息通信產(chǎn)業(yè)高地,始終致力于打造以科技為核心、以場景為驅(qū)動(dòng)、以生態(tài)為支撐的6G之城。
    南京6G產(chǎn)業(yè)聯(lián)盟新華三
    2026-01-06 17:24:46
  • 新華三發(fā)布高校管理決策AI一體機(jī),以AI賦能教育數(shù)字化轉(zhuǎn)型

    活動(dòng)中,新華三集團(tuán)副總裁、教育科研事業(yè)部總經(jīng)理鄧偉在致辭中表示,當(dāng)前教育行業(yè)正全面推進(jìn)全場景、全流程、全要素的數(shù)字化轉(zhuǎn)型。
    新華三AI
    2025-05-26 09:57:58
  • 江波龍2024年?duì)I收175億大增72%,凈利潤翻倍

    江波龍發(fā)布2024年年報(bào),全年?duì)I收174.64億元,同比增長72.48%;凈利潤4.99億元,同比大增160.24%。公司高端存儲(chǔ)產(chǎn)品占比提升帶動(dòng)毛利率顯著改善,企業(yè)級(jí)存儲(chǔ)和Lexar品牌業(yè)務(wù)成為增長新引擎。2025年將重點(diǎn)布局AI服務(wù)器存儲(chǔ)、UFS高端產(chǎn)品及海外市場拓展。
    2024年業(yè)績報(bào)告存儲(chǔ)
    2025-04-01 10:35:36
  • 公司重要?jiǎng)討B(tài)速覽|新華三、科大訊飛、宇視科技......

    近日,紫光股份旗下新華三集團(tuán)重磅推出多通道以太光方案,采用多通道技術(shù)與標(biāo)準(zhǔn)化協(xié)議設(shè)計(jì),構(gòu)建統(tǒng)一開放的網(wǎng)絡(luò)架構(gòu);近日,南陽科大訊飛信息科技有限公司成立,法定代表人為孫亮,注冊資本2000萬元;3月18日,海亮教育科技服務(wù)集團(tuán)同宇視科技正式簽署戰(zhàn)略合作框架協(xié)議......
    新華三科大訊飛宇視科技
    2025-03-21 08:43:20
  • 多元開放 持續(xù)進(jìn)化 新華三重磅發(fā)布多款智算新品

    面向AGI時(shí)代,新華三將全面構(gòu)建可持續(xù)進(jìn)化和可持續(xù)發(fā)展的算力底座,依托“內(nèi)生智能 成就智慧”理念,不斷探索AI技術(shù)與算力產(chǎn)品的深度融合,推進(jìn)軟硬件平臺(tái)協(xié)同進(jìn)化,打造多元、開放、高效、綠色的算力基礎(chǔ)設(shè)施,攜手廣大用戶與合作伙伴共啟新境,臻于智境。
    新華三AI數(shù)據(jù)存儲(chǔ)平臺(tái)
    2024-10-26 10:29:36
版權(quán)與免責(zé)聲明:

凡本站注明“來源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn)或和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí),必須保留本站注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源:智能制造網(wǎng)”,本站將依法追究責(zé)任。

鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問題,請與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

不想錯(cuò)過行業(yè)資訊?

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

推薦產(chǎn)品/PRODUCT 更多
智造商城:

PLC工控機(jī)嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機(jī)械包裝機(jī)械工程機(jī)械倉儲(chǔ)物流環(huán)保設(shè)備化工設(shè)備分析儀器工業(yè)機(jī)器人3D打印設(shè)備生物識(shí)別傳感器電機(jī)電線電纜輸配電設(shè)備電子元器件更多

我要投稿
  • 投稿請發(fā)送郵件至:(郵件標(biāo)題請備注“投稿”)1271141964.qq.com
  • 聯(lián)系電話0571-89719789
工業(yè)4.0時(shí)代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)
智能制造網(wǎng)APP

功能豐富 實(shí)時(shí)交流

智能制造網(wǎng)小程序

訂閱獲取更多服務(wù)

微信公眾號(hào)

關(guān)注我們

抖音

智能制造網(wǎng)

抖音號(hào):gkzhan

打開抖音 搜索頁掃一掃

視頻號(hào)

智能制造網(wǎng)

公眾號(hào):智能制造網(wǎng)

打開微信掃碼關(guān)注視頻號(hào)

快手

智能制造網(wǎng)

快手ID:gkzhan2006

打開快手 掃一掃關(guān)注
意見反饋
我要投稿
我知道了
汕头市| 建湖县| 哈密市| 盐津县| 临湘市| 靖宇县| 万盛区| 金坛市| 乐陵市| 崇左市| 西宁市| 特克斯县| 安丘市| 崇州市| 两当县| 万荣县| 北票市| 寿宁县| 和林格尔县| 蛟河市| 壶关县| 高尔夫| 石景山区| 秀山| 嘉义市| 若尔盖县| 聂拉木县| 布拖县| 依安县| 温宿县| 松阳县| 吴江市| 禄丰县| 含山县| 华蓥市| 繁峙县| 铜梁县| 教育| 旺苍县| 五台县| 湖北省|