Skip to content

Commit e3ac0ba

Browse files
authored
feat(eval):Readme add qa (#1400)
* 增加关闭ov的配置 * 增加常见QA
1 parent a4c0d26 commit e3ac0ba

1 file changed

Lines changed: 65 additions & 0 deletions

File tree

benchmark/locomo/README.md

Lines changed: 65 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -403,3 +403,68 @@ A: 使用 `--force-ingest`(导入)或删除结果 CSV 文件。
403403

404404
### Q: 评测速度慢怎么办?
405405
A: 增加 `--threads`(run_eval.py)或 `--parallel`(其他脚本)参数值。
406+
407+
---
408+
409+
## 常见问题排查
410+
411+
### 1. 检查 OpenViking 数据导入是否成功
412+
413+
导入完成后,查看 `import_success.csv`
414+
415+
```bash
416+
cd benchmark/locomo/openclaw
417+
wc -l result/import_success.csv
418+
```
419+
420+
- **预期结果**:总共约 270+ session(包含表头)
421+
- **如果数量不符**
422+
- 检查 `result/import_errors.log` 查看错误日志
423+
- 使用 `--force-ingest` 重新导入
424+
425+
### 2. 检查 QA 回答是否正常
426+
427+
查看 `qa_results.csv``response` 列:
428+
429+
```bash
430+
cd benchmark/locomo/openclaw
431+
# 查看前几行
432+
head -n 5 result/qa_results.csv
433+
434+
# 查看是否有 ERROR
435+
grep -i "error" result/qa_results.csv
436+
```
437+
438+
**检查内容:**
439+
- `response` 列不应为空或报错信息
440+
- `result` 列(judge 后)应有 `CORRECT``WRONG`
441+
442+
### 3. 验证 OpenViking 记忆是否被正确加载
443+
444+
如果 QA 回答不正常,可以检查 session 文件确认记忆是否被加载:
445+
446+
1.`qa_results.csv``jsonl_filename` 列获取 session 文件名:
447+
```
448+
jsonl_filename
449+
5d497c96-9fb6-480c-be06-0c0849e193e9.jsonl.20260408_181433
450+
```
451+
452+
2. 在 OpenClaw 工作目录查看对应的 session 文件:
453+
```bash
454+
ls ~/.openclaw/agents/locomo-eval/sessions/
455+
```
456+
457+
3. 查看 session 文件内容,确认 query 前是否有记忆内容:
458+
```bash
459+
cat ~/.openclaw/agents/locomo-eval/sessions/<jsonl_filename> | grep -A 20 "type.*message"
460+
```
461+
462+
**预期结果**:在用户提问(query)之前,应该有从 OpenViking 加载的记忆内容。
463+
464+
### 4. Token 统计异常
465+
466+
如果 `stat_judge_result.py` 输出的 token 数量异常:
467+
468+
- **Import token 为 0**:检查 `import_success.csv` 是否存在且有数据
469+
- **QA token 为 0**:检查 `qa_results.csv``input_tokens`/`output_tokens`
470+
- **CacheRead 很高**:说明多次运行相同问题,命中了缓存

0 commit comments

Comments
 (0)