Benchmark评估

LoCoMo

LoCoMo是长对话记忆评估中常用的benchmark，覆盖跨轮次、跨主题和时间相关问题，适合检验 Agent 能否从较长历史中召回稳定的用户事实和事件。GUMem能够实现92.9%的准确率，是目前的SOTA水平。

产品	Overall	Single-hop	Multi-hop	Temporal	Open-domain
GUMem	92.90	94.40	91.50	94.40	79.20
Mem0 New April 2026	91.60	92.30	93.30	92.80	76.00
HyperGraphRAG	86.49	90.61	80.85	85.36	70.83
MIRIX	85.38	85.11	83.70	88.39	65.62
HippoRAG 2	81.62	86.44	75.89	78.50	66.67
LightRAG	79.87	86.68	84.04	60.75	71.88
MemOS	75.80	81.09	67.49	75.18	55.90
Membase	72.01	73.12	64.65	81.20	53.12
Mem0g	68.44	65.71	47.19	58.13	75.71
GraphRAG	67.60	79.55	54.96	50.16	58.33
Mem0	66.88	67.13	51.15	55.51	72.93
Zep	65.99	61.70	41.35	49.31	76.60
LangMem	58.10	62.23	47.92	23.43	71.12
MemU	56.55	66.34	63.12	27.10	50.01
OpenAI	52.90	63.79	42.92	21.71	62.29
A-Mem	48.38	39.79	18.85	49.91	54.05

数据集特点

LoCoMo中的原始数据集包含 50 条超长对话；官方仓库当前用于评测的 locomo10.json 是其中保留长对话和高质量标注后的 10 条对话子集。这个子集共包含 272 个 session、5,882 轮对话、1,986 个 QA 标注，平均每条对话约 27.2 个 session 和 588.2 轮。

LoCoMo 不只是检验“能否找到一句原文”。它把对话构造成带 persona、时间线、事件关系和图片引用的长期互动，并要求模型在多天、多主题的历史中回答问题、总结事件或继续生成多模态对话。对 GUMem 这类 Memory 系统来说，它主要考察三类能力：能否从长期历史中召回正确事实，能否把跨 session 的线索组合起来，能否处理时间顺序、因果关系和无法回答的问题。

题型	数量	主要考察点
Single-hop	841	从单个上下文片段召回明确事实。
Multi-hop	282	综合多个对话片段或多个事实后回答。
Temporal	321	理解日期、先后顺序、时间间隔和事件发生时间。
Open-domain	96	结合对话事实和常识推断答案。
Adversarial	446	判断问题前提是否缺失，避免编造不存在的答案。

本次 GUMem LoCoMo 实验排除了 category=5 的 Adversarial 题，只统计前四类 1,540 个问题，对齐 Mem0 的 LoCoMo 报告口径。

GUMem vs Mem0

从权威性和准确率角度出发，Mem0是目前最主流的Agent Memory产品之一，因此可以作为记忆召回效果和上下文成本的对比基线。与Mem0最新(2026.4)的测试结果比较而言：在本次 LoCoMo 评估中，GUMem 的平均上下文 token 低于 Mem0 New 的一半情况下，整体 Judge 通过率达到 92.9%，高于 Mem0 New 的 91.6%。这说明 GUMem 在显著减少输入上下文的同时，仍能保持更高的整体答案正确率。

LoCoMo GUMem vs Mem0 New benchmark

实验细节

下一步

阅读查询记忆了解召回参数如何影响延迟和结果质量。

Benchmark评估 ​

LoCoMo ​

数据集特点 ​

GUMem vs Mem0 ​

实验细节 ​

下一步 ​

Benchmark评估

LoCoMo

数据集特点

GUMem vs Mem0

实验细节

下一步