全局 Prefix Cache——最大化历史信息复用,降低首 token 成本。在多轮对话、公共前缀复用及 RAG 知识检索等复杂业务中,重复计算的历史 token 既增加了延迟,也推高了推理成本。UCM 全局 Prefix Cache 技术支持任意位置、任意介质、任意组合的 KV Cache 精准命中,可跨 HBM、DRAM、跨机内存与 SSD 池化存储实现前缀重用,显著减少输入 token 重算开销。该机制不仅提升了首 token 响应速度,还在高频调用场景中有效降低了单位 token 的成本支出。