GUMem 如何工作
GUMem 是生产级可用的记忆系统。它能够围绕会话消息、工具调用、业务事件和行为记录构建多层级记忆结构,用于提取、压缩和召回用户画像、偏好、意图与长期上下文。接下来将从记忆模型、记忆提取、记忆召回和遗忘机制四个方面介绍 GUMem 如何工作。
记忆层次模型

| 层级 | 作用 | 说明 |
|---|---|---|
Topic | 发现潜在关联 | 识别 Facts 和 Summaries 之间的关系,形成可持续扩展的长期记忆主题。 |
Summary | 抽象与直接推理 | 基于 Facts 进行多角度抽象、归纳和必要的直接推理,将分散事实压缩为适合召回的长期记忆。 |
Facts | 高保真事实提取 | 面向原始输入提取可验证事实,不引入额外推理或猜测,重点保证低噪声和高保真。 |
Message | 原始信息来源 | 保留原始对话、工具调用、业务事件或行为记录,为 Facts 提供可追踪来源。 |
记忆提取
GUMem 按层级完成记忆提取:先抽取高保真的 Facts,再基于同一批 Facts 生成多角度 Summaries,最后迭代更新 Topics,让长期记忆保持可追踪、可压缩和可召回。

- Facts 抽取:从原始输入中提取明确支持的信息,重点保证准确性、低噪声和高保真。系统会保留关键实体、明确指代、来源证据和绝对时间锚点,不把推测或补全写成事实。
- Summaries 抽取:基于同一批 Facts Chunk 做多角度抽象、归纳和直接推理,将分散事实压缩成适合 Agent 使用的长期上下文。
- Topics 更新:根据新生成的 Summaries 和已有 Topic 内容迭代更新主题入口,保持长期记忆的新鲜度和召回效率。
这套流程避免了直接摘要原始聊天记录带来的噪声和不可追踪问题,也比只保存事实更适合长会话、跨主题历史和时间相关任务。
记忆的召回
GUMem 的召回按记忆层级逐步展开。系统会先从 Topic 定位相关记忆范围;如果高层结果已经足够,就直接进入返回流程。当 Topic 的召回内容不足时,系统会继续下钻到 Summary,获取更具体的长期记忆;如果 Summary 仍不足以支撑当前任务,再继续补充 Facts 作为证据层上下文。

这张图可以按以下顺序理解:
- Topic 定位方向:
query先进入Topics,用高层主题快速缩小召回范围。 - Summary 补充记忆:如果
confidence: low,系统继续召回Summaries,拿到更具体的压缩记忆。 - Facts 补充证据:如果 Summary 仍然不够,系统再下钻到
Facts,补充可追踪证据。 - merge + rerank 返回结果:召回得到的候选内容会先合并,再按当前 query 的相关性、置信度和证据强度重新排序,最终返回给 Agent 使用。
这让召回过程既能保持高层检索的效率,也能在上下文不足时回到更细粒度的事实层,避免把所有历史一次性塞进上下文。