EN
突破GPU显存瓶颈,加速AI推理,焱融科技发布分布式KV Cache特性

在当今快速发展的AI领域,尤其是大模型推理过程中,数据读取速度和GPU显存的限制等成为了制约性能提升的关键瓶颈。传统的存储解决方案往往无法满足现代大模型对高速数据访问的需求,导致推理延迟高、资源消耗大,极大地影响了用户体验和运营成本。

为了应对这一挑战,耀途早期投资组合 AI 存储厂商焱融科技宣布,其自主研发的分布式文件存储系统 YRCloudFile 已成功支持大模型推理场景的 KV Cache 特性,为 AI 推理带来显著价值提升。

近日焱融存储技术团队基于公开数据集和业界公认的测试工具,基于 NVIDIA GPU 硬件平台模拟真实的推理业务场景,进一步探索并发布 KVCache 在推理场景中的详细性能优化数据。

测试结果显示,在相同规模和推理延迟 TTFT (Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并发查询请求,为用户提供更贴近实际使用场景的性能验证与优化方案。这些数据不仅验证了 KVCache 技术的有效性,并揭示了高性能 KVCache 给推理业务带来的可量化的价值(阅读更多)。

KV Cache 通过高效缓存机制加速数据读取,显著提升推理性能,突破 GPU 显存瓶颈,大幅提升推理 GPU 效率和并发处理能力。

这意味着用户可以在不增加 GPU 资源的情况下,实现更高并发的推理请求,大幅降低 GPU 资源消耗与投入成本。同时,它还能够降低推理的首个 Token 耗时和 Token 间耗时延时,提升用户使用体验。
此外,焱融科技实现了 DeepSeek 级架构,构建与 DeepSeek 一致的推理场景存算参考架构。
用户在使用支持 KV Cache 的焱融存储时,能够享受到与 DeepSeek 同等架构带来的优质体验。在相同规模和推理速度下,焱融存储支持更长的上下文处理和更多查询请求,为大模型推理提供更优的性价比。
优势一:焱融 AI 推理存储优化实时交互性能
在实时交互场景中,用户对 AI 服务的响应速度要求极高。焱融存储 KV Cache 技术,大幅缩短大模型推理的首个Token耗时(Time To First Token)和 Token 间耗时(Time Between Token),显著提升复杂场景的响应效率。
该方案采用 NVMe SSD 加速与高性能网络,实现微秒级推理延迟,提升 Token 处理速度,减少资源占用,支持更多并发访问,优化业务成本。
同时,通过 GPUDirect Storage 与 RDMA 网络的结合进一步优化数据传输效率,提升用户体验。
优势二:显存资源动态优化与推理加速
焱融存储 KV Cache 技术,突破显存容量对上下文长度的限制,实现 GPU 资源动态调度,提升单卡并发推理能力。
这意味着用户可以在不增加 GPU 资源的情况下,实现更高并发的推理请求,大幅降低 GPU 资源消耗与投入成本。
目前,该技术已应用于多模态大模型、实时交互等高算力需求场景,为 AGI 时代规模化 AI 落地提供高性价比的算力底座。 
优势三:DeepSeek 级架构体验
针对当前企业广泛采用的 DeepSeek 等主流大模型,焱融存储 KV Cache 技术进一步降低企业使用成本的同时,提升推理场景下的响应效率。可灵活适配从百亿级参数模型到万亿级 MoE 混合专家模型,满足政务、金融等高安全要求场景的数据本地化需求,同时支持国产与海外芯片的异构算力环境,为企业提供自主可控的技术路径。
此次技术突破正值国内企业 AI 私有化部署浪潮,焱融科技以存储技术创新推动算力资源的高效利用,为 AI 规模化应用提供了关键基础设施支撑。

随着多模态与实时交互场景的普及,存储与计算的协同优化,KV Cache “以存换算”将成为企业降本增效的核心竞争力。

AI是耀途资本长期重点投资赛道。以DeepSeek为代表的开源模型带来的AI技术平权,将大力促进AI应用生态,包括To B/To C软件以及硬件生态,进一步放大应用侧的投资机会。

耀途资本已经全方位布局生成式人工智能GenAI领域,包括硅基流动、焱融科技、速石科技、未来速度Xprobe、MemVerge等基础软件,以及包括元戎启行、数巅科技、新石器、喆塔科技、天鹜科技、FutureBio等应用层项目,壁仞科技、瀚博半导体、云豹智能、网迅科技、Credo(CRDO)、NeuReality、电科星拓、Xconn、赛勒科技、得一微电子、先进全成等基础硬件项目。(阅读更多