Skip to content
Go to Dashboard

Benchmark评估

LoCoMo

LoCoMo是长对话记忆评估中常用的benchmark,覆盖跨轮次、跨主题和时间相关问题,适合检验 Agent 能否从较长历史中召回稳定的用户事实和事件。GUMem能够实现92.9%的准确率,是目前的SOTA水平。

产品OverallSingle-hopMulti-hopTemporalOpen-domain
GUMem92.9094.4091.5094.4079.20
Mem0 New
April 2026
91.6092.3093.3092.8076.00
HyperGraphRAG86.4990.6180.8585.3670.83
MIRIX85.3885.1183.7088.3965.62
HippoRAG 281.6286.4475.8978.5066.67
LightRAG79.8786.6884.0460.7571.88
MemOS75.8081.0967.4975.1855.90
Membase72.0173.1264.6581.2053.12
Mem0g68.4465.7147.1958.1375.71
GraphRAG67.6079.5554.9650.1658.33
Mem066.8867.1351.1555.5172.93
Zep65.9961.7041.3549.3176.60
LangMem58.1062.2347.9223.4371.12
MemU56.5566.3463.1227.1050.01
OpenAI52.9063.7942.9221.7162.29
A-Mem48.3839.7918.8549.9154.05

数据集特点

LoCoMo中的原始数据集包含 50 条超长对话;官方仓库当前用于评测的 locomo10.json 是其中保留长对话和高质量标注后的 10 条对话子集。这个子集共包含 272 个 session、5,882 轮对话、1,986 个 QA 标注,平均每条对话约 27.2 个 session 和 588.2 轮。

LoCoMo 不只是检验“能否找到一句原文”。它把对话构造成带 persona、时间线、事件关系和图片引用的长期互动,并要求模型在多天、多主题的历史中回答问题、总结事件或继续生成多模态对话。对 GUMem 这类 Memory 系统来说,它主要考察三类能力:能否从长期历史中召回正确事实,能否把跨 session 的线索组合起来,能否处理时间顺序、因果关系和无法回答的问题。

题型数量主要考察点
Single-hop841从单个上下文片段召回明确事实。
Multi-hop282综合多个对话片段或多个事实后回答。
Temporal321理解日期、先后顺序、时间间隔和事件发生时间。
Open-domain96结合对话事实和常识推断答案。
Adversarial446判断问题前提是否缺失,避免编造不存在的答案。

本次 GUMem LoCoMo 实验排除了 category=5 的 Adversarial 题,只统计前四类 1,540 个问题,对齐 Mem0 的 LoCoMo 报告口径。

GUMem vs Mem0

从权威性和准确率角度出发,Mem0是目前最主流的Agent Memory产品之一,因此可以作为记忆召回效果和上下文成本的对比基线。与Mem0最新(2026.4)的测试结果比较而言:在本次 LoCoMo 评估中,GUMem 的平均上下文 token 低于 Mem0 New 的一半情况下,整体 Judge 通过率达到 92.9%,高于 Mem0 New 的 91.6%。这说明 GUMem 在显著减少输入上下文的同时,仍能保持更高的整体答案正确率。

LoCoMo GUMem vs Mem0 New benchmark

实验细节

下一步

阅读 查询记忆 了解召回参数如何影响延迟和结果质量。