(资料图片仅供参考)
近日,DeepSeek团队联合清华大学、北京大学计算机学院发表名为《DualPath:突破智能体LLM推理中的存储带宽瓶颈》的论文。针对智能体LLM推理中的KV-Cache存储瓶颈,论文提出DualPath系统。该系统打破传统单一存储到预填充路径,引入创新的存储到解码路径,利用闲置带宽并配合全局动态调度。实验显示,其在线推理吞吐量平均提升达1.96倍。
(资料图片仅供参考)
近日,DeepSeek团队联合清华大学、北京大学计算机学院发表名为《DualPath:突破智能体LLM推理中的存储带宽瓶颈》的论文。针对智能体LLM推理中的KV-Cache存储瓶颈,论文提出DualPath系统。该系统打破传统单一存储到预填充路径,引入创新的存储到解码路径,利用闲置带宽并配合全局动态调度。实验显示,其在线推理吞吐量平均提升达1.96倍。
Copyright @ 2008-2017 news.dfce.com.cn All Rights Reserved 东方财经网 版权所有 关于我们
联系我们:dfcjw@sohu3.com