heard-bench
收藏Heard v0.1 数据集详情
数据集概述
Heard v0.1 是一个面向韩国单人创业者的设备端(on-device)韩语助手数据集,旨在通过引用用户过去的自我表述来帮助其在决策时刻进行反思。该数据集由 Chanyoung Kim 创建,是 2026 年自然语言处理课程(2150534701)的项目成果。
核心特性
- 领域:夜间单人创业者的独白场景(solo-business monologue)
- 语言:韩语(Korean)
- 数据集许可:CC-BY-4.0
- 代码许可:Apache 2.0
- 数据集地址:https://huggingface.co/datasets/chanyoungkim/heard-bench
数据集构成
heard-bench 是一个包含 270 个样本的韩语长期记忆基准测试集,分为三个子轨道(track):
| 轨道 | 样本数量 | 说明 |
|---|---|---|
en_subset |
100 | 英文子集 |
ko_translated |
100 | 韩语查询 + 英文记忆库(翻译轨道) |
ko_native |
70 | 全程韩语(原生轨道) |
评估能力维度
覆盖六种长期记忆能力:
- IE - 信息提取
- MR - 记忆检索
- KU - 知识理解
- TR - 时序推理
- ABS - 抽象推理
- REFL - 反思能力
数据质量控制
- 对抗性过滤:无记忆基线无法解决这些样本
- 4 门验证:四阶段自动验证流程
- 作者审查:所有样本经作者人工审核
架构三支柱
- MIC - 始终关闭的轻触即讲语音转文本模块(v0.1 使用
sounddevice+faster-whisper) - NODE - 领域特定的类型化记忆系统,存储用户过去的表述
- MIRROR - 反思性响应生成:引用用户过去的话语,避免祈使句,以开放式问题结尾而非建议
实验结果摘要
记忆增强效果(ko_native 子集,建议策略)
| 模型 | 无记忆 | 检索增强 | 理想上限 |
|---|---|---|---|
| Kanana 2.1B | 4.7% | 10.9% | 15.6% |
| Qwen 2.5 3B | 3.1% | 12.5% | 10.9% |
语言衰减效应(Kanana 检索策略)
| 轨道 | 通过率 |
|---|---|
en_subset(英文记忆库) |
0.0% |
ko_translated(韩语查询,英文记忆库) |
5.0% |
ko_native(全程韩语) |
10.9% |
反思策略 vs 建议策略对比
在情感共鸣(85%)和开放式提问(92%)维度上,反思策略显著优于建议策略。
模型与成本
- 检索模型:
multilingual-e5-small余弦检索器 - 学生模型(SUTs):Kanana 2.1B、Qwen 2.5 3B
- 硬件:单张 L40S GPU
- 延迟:每次响应 < 2.7 秒
- 总 API 成本:约 4 美元(使用 haiku-4.5 / gpt-4o-mini / gemini-2.5-flash 级别模型)
使用方式
加载数据集
python from datasets import load_dataset ko_native = load_dataset("chanyoungkim/heard-bench", "ko_native", split="test") ko_translated = load_dataset("chanyoungkim/heard-bench", "ko_translated", split="test") en_subset = load_dataset("chanyoungkim/heard-bench", "en_subset", split="test")
快速开始
bash git clone https://github.com/cykim05/heard cd heard python -m venv .venv && source .venv/bin/activate pip install -r requirements.txt
引用方式
bibtex @misc{heard-bench-2026, title = {heard-bench: A Korean Long-Term Memory Benchmark for Solo-Business Monologue}, author = {Kim, Chanyoung}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/chanyoungkim/heard-bench}} }




