five

heard-bench

收藏
github2026-04-24 更新2026-04-25 收录
下载链接:
https://github.com/cykim05/heard
下载链接
链接失效反馈
官方服务:
资源简介:
heard-bench是一个包含270项的韩语长期记忆基准数据集,针对夜间独白商业领域。该数据集填补了现有基准在韩语、独白和独白商业领域的空白,包含三个部分:en_subset(100项)、ko_translated(100项)和ko_native(70项),涵盖了六种长期记忆能力(IE / MR / KU / TR / ABS + REFL)。数据集经过对抗性过滤,确保无记忆基线无法解决,并经过4门验证和作者审查。

heard-bench is a Korean long-term memory benchmark dataset containing 270 entries, tailored for the commercial domain of nighttime monologues. It fills the gaps in existing benchmarks across three key areas: Korean language support, monologue-based tasks, and the aforementioned commercial domain of nighttime monologues. The dataset comprises three subsets: en_subset (100 entries), ko_translated (100 entries), and ko_native (70 entries), covering six long-term memory capabilities: IE / MR / KU / TR / ABS + REFL. Additionally, the dataset has been processed via adversarial filtering to ensure that it cannot be solved by vanilla memory-unaware baselines, and has passed four rounds of validation as well as author review.
创建时间:
2026-04-23
原始信息汇总

Heard v0.1 数据集详情

数据集概述

Heard v0.1 是一个面向韩国单人创业者的设备端(on-device)韩语助手数据集,旨在通过引用用户过去的自我表述来帮助其在决策时刻进行反思。该数据集由 Chanyoung Kim 创建,是 2026 年自然语言处理课程(2150534701)的项目成果。

核心特性

  • 领域:夜间单人创业者的独白场景(solo-business monologue)
  • 语言:韩语(Korean)
  • 数据集许可:CC-BY-4.0
  • 代码许可:Apache 2.0
  • 数据集地址:https://huggingface.co/datasets/chanyoungkim/heard-bench

数据集构成

heard-bench 是一个包含 270 个样本的韩语长期记忆基准测试集,分为三个子轨道(track):

轨道 样本数量 说明
en_subset 100 英文子集
ko_translated 100 韩语查询 + 英文记忆库(翻译轨道)
ko_native 70 全程韩语(原生轨道)

评估能力维度

覆盖六种长期记忆能力:

  1. IE - 信息提取
  2. MR - 记忆检索
  3. KU - 知识理解
  4. TR - 时序推理
  5. ABS - 抽象推理
  6. REFL - 反思能力

数据质量控制

  • 对抗性过滤:无记忆基线无法解决这些样本
  • 4 门验证:四阶段自动验证流程
  • 作者审查:所有样本经作者人工审核

架构三支柱

  1. MIC - 始终关闭的轻触即讲语音转文本模块(v0.1 使用 sounddevice + faster-whisper
  2. NODE - 领域特定的类型化记忆系统,存储用户过去的表述
  3. MIRROR - 反思性响应生成:引用用户过去的话语,避免祈使句,以开放式问题结尾而非建议

实验结果摘要

记忆增强效果(ko_native 子集,建议策略)

模型 无记忆 检索增强 理想上限
Kanana 2.1B 4.7% 10.9% 15.6%
Qwen 2.5 3B 3.1% 12.5% 10.9%

语言衰减效应(Kanana 检索策略)

轨道 通过率
en_subset(英文记忆库) 0.0%
ko_translated(韩语查询,英文记忆库) 5.0%
ko_native(全程韩语) 10.9%

反思策略 vs 建议策略对比

在情感共鸣(85%)和开放式提问(92%)维度上,反思策略显著优于建议策略。

模型与成本

  • 检索模型multilingual-e5-small 余弦检索器
  • 学生模型(SUTs):Kanana 2.1B、Qwen 2.5 3B
  • 硬件:单张 L40S GPU
  • 延迟:每次响应 < 2.7 秒
  • 总 API 成本:约 4 美元(使用 haiku-4.5 / gpt-4o-mini / gemini-2.5-flash 级别模型)

使用方式

加载数据集

python from datasets import load_dataset ko_native = load_dataset("chanyoungkim/heard-bench", "ko_native", split="test") ko_translated = load_dataset("chanyoungkim/heard-bench", "ko_translated", split="test") en_subset = load_dataset("chanyoungkim/heard-bench", "en_subset", split="test")

快速开始

bash git clone https://github.com/cykim05/heard cd heard python -m venv .venv && source .venv/bin/activate pip install -r requirements.txt

引用方式

bibtex @misc{heard-bench-2026, title = {heard-bench: A Korean Long-Term Memory Benchmark for Solo-Business Monologue}, author = {Kim, Chanyoung}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/chanyoungkim/heard-bench}} }

搜集汇总
数据集介绍
main_image_url
构建方式
Heard-bench数据集由韩国科学技术院(KAIST)的研究者构建,专注于夜间个体经营者的独白场景。其构建流程始于利用语言模型生成约2,046条自述式话语,形成初始语料库,随后从中抽取三个子集:en_subset(100个英文条目)、ko_translated(100个韩文查询但英文背景条目)和ko_native(70个纯韩文条目),覆盖六种长期记忆能力(信息提取、匹配检索、知识更新、时间推理、抽象概括与反思)。为确保数据集质量,所有条目经过对抗性筛选以排除无记忆基线可解答的内容,并通过四门验证及作者审查,最终形成270个条目的评测基准。
使用方法
使用者可通过HuggingFace数据集库直接加载heard-bench的三个子集,使用load_dataset函数指定配置名称(如ko_native)即可获取测试集。数据集的完整复现流程按天组织,从话语生成(脚本01)、子集采样(02)、场景构建(03)、对抗过滤(04)到翻译(05)、自动验证(06),再到索引构建(07a)、模型评估(07)与法官评判(08),最后聚合指标(09)并生成图表(10)。所有脚本均为独立命令行接口,支持磁盘缓存以实现高效重复运行,总API消耗约4美元,适合在单块L40S GPU上进行端到端实验。
背景与挑战
背景概述
Heard v0.1 是由韩国研究者 Chanyoung Kim 于 2026 年创建的一个专注于韩语独白长期记忆评估的基准数据集。该数据集源于对韩国约 140 万个体经营业主的洞察——他们整日独自工作,内心独白无人倾听。为填补现有基准(如 LongMemEval、PerLTQA、LoCoMo)在韩语、独白和个体经营领域交叉点的空白,heard-bench 应运而生。它包含 270 个精心设计的项目,涵盖 en_subset、ko_translated 和 ko_native 三个子轨迹,全面评估六种长期记忆能力(信息提取、记忆检索、知识利用、时序推理、抽象概括与反思)。该数据集为端侧韩语大语言模型的开发提供了重要的评估工具,推动了对话式 AI 在特定文化语境与独白场景下的研究。
当前挑战
该数据集面临的核心挑战源于其独特的领域定位。首先,在解决个体经营业主夜间独白场景中的长期记忆评估问题时,现有基准无法满足韩语、独白和商业话语的三重需求,迫使从头构建数据集。其次,构建过程中遭遇多项挑战:设计能精准模拟真实独白语境的 270 个测试项目,需采用对抗性过滤确保无记忆基线无法解决,并通过四门验证和作者审核保证质量;同时需处理语言轴上的衰减问题,实验表明韩语原生数据的需求并非偏好而是必要,翻译轨迹与原生轨迹的性能差异显著。此外,还需在成本约束下(API 花费仅约 4 美元)构建端到端检索流水线,实现每个响应延迟低于 2.7 秒,并设计区分咨询性与反思性提示策略的评估框架。
常用场景
经典使用场景
Heard-bench 数据集专为评估韩语单人多话者(solo-business)夜间独白场景下的长期记忆能力而设计,聚焦于反映个体过往决策时刻的反射性对话。其经典使用场景涵盖六项核心记忆能力:信息提取(IE)、记忆检索(MR)、知识更新(KU)、时间推理(TR)、抽象概括(ABS)以及反射性回应(REFL)。研究者可借助该数据集,验证端侧语言模型是否能在无外部记忆辅助时,准确引用用户曾言说的句子,并以开放式提问而非直接建议的方式完成回应,从而模拟深夜独自经营店铺者与自我对话时的真实交互。
解决学术问题
该数据集填补了韩语独白型长期记忆基准的空白,解决了现有基准(如 LongMemEval、PerLTQA、LoCoMo)无法同时满足韩语、独白、单人商业场景三大条件的学术困境。通过对抗性过滤确保基线模型无法凭借无记忆策略解答,并经四门验证与作者审查,显著提升了评测的鲁棒性与可靠性。其研究意义在于揭示了语言轴上的性能衰减现象:韩语原生数据带来的性能提升远超翻译数据,从而证实了场景特异性与语言原生性对长期记忆评测不可或缺。
实际应用
在实际应用中,Heard-bench 为开发面向韩国个体经营者(约140万人)的端侧智能助手提供了关键评测工具。例如,花店店主在深夜考虑是否提高玫瑰售价时,助手可基于过往自言自语记录,回放其曾表达的犹豫或判断,辅助其独立决策。该数据集赋能了低延迟(单次响应<2.7秒)、低成本(全套复现约4美元)的本地化部署,推动记忆增强型对话系统在隐私敏感、无网络环境下的实用化落地,尤其适用于小微企业的日常经营辅助。
数据集最近研究
最新研究方向
随着大型语言模型在个人化与边缘部署场景中的深入应用,如何使模型在决策时刻回响用户过往言语脉络成为前沿焦点。heard-bench精准切入韩国个体经营者独白语音场景这一未被充分探索的领域,构建了涵盖六类长时记忆能力的270项对抗性筛选与四级验证的中文基准。研究发现,引入记忆检索模块可使小参数模型在本地端测试集上的通过率从4.7%跃升至10.9%,且纯韩语原生数据相较于翻译或混合语言环境表现出显著优势。尤其值得关注的是,反思性对话策略在情绪共鸣与开放式追问维度上分别以85%和92%的压倒性胜率超越了传统建议模式,为构建真正懂得“倾听与回望”的边缘端语言助手开辟了实证路径。这一基准不仅填补了独白长时记忆评估的空白,更推动了本地化、低成本、心理安全的人机交互范式革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作