heard-bench

github2026-04-24 更新2026-04-25 收录

下载链接：

https://github.com/cykim05/heard

下载链接

链接失效反馈

官方服务：

资源简介：

heard-bench是一个包含270项的韩语长期记忆基准数据集，针对夜间独白商业领域。该数据集填补了现有基准在韩语、独白和独白商业领域的空白，包含三个部分：en_subset（100项）、ko_translated（100项）和ko_native（70项），涵盖了六种长期记忆能力（IE / MR / KU / TR / ABS + REFL）。数据集经过对抗性过滤，确保无记忆基线无法解决，并经过4门验证和作者审查。

heard-bench is a Korean long-term memory benchmark dataset containing 270 entries, tailored for the commercial domain of nighttime monologues. It fills the gaps in existing benchmarks across three key areas: Korean language support, monologue-based tasks, and the aforementioned commercial domain of nighttime monologues. The dataset comprises three subsets: en_subset (100 entries), ko_translated (100 entries), and ko_native (70 entries), covering six long-term memory capabilities: IE / MR / KU / TR / ABS + REFL. Additionally, the dataset has been processed via adversarial filtering to ensure that it cannot be solved by vanilla memory-unaware baselines, and has passed four rounds of validation as well as author review.

创建时间：

2026-04-23

原始信息汇总

Heard v0.1 数据集详情

数据集概述

Heard v0.1 是一个面向韩国单人创业者的设备端（on-device）韩语助手数据集，旨在通过引用用户过去的自我表述来帮助其在决策时刻进行反思。该数据集由 Chanyoung Kim 创建，是 2026 年自然语言处理课程（2150534701）的项目成果。

核心特性

领域：夜间单人创业者的独白场景（solo-business monologue）
语言：韩语（Korean）
数据集许可：CC-BY-4.0
代码许可：Apache 2.0
数据集地址：https://huggingface.co/datasets/chanyoungkim/heard-bench

数据集构成

heard-bench 是一个包含 270 个样本的韩语长期记忆基准测试集，分为三个子轨道（track）：

轨道	样本数量	说明
`en_subset`	100	英文子集
`ko_translated`	100	韩语查询 + 英文记忆库（翻译轨道）
`ko_native`	70	全程韩语（原生轨道）

评估能力维度

覆盖六种长期记忆能力：

IE - 信息提取
MR - 记忆检索
KU - 知识理解
TR - 时序推理
ABS - 抽象推理
REFL - 反思能力

数据质量控制

对抗性过滤：无记忆基线无法解决这些样本
4 门验证：四阶段自动验证流程
作者审查：所有样本经作者人工审核

架构三支柱

MIC - 始终关闭的轻触即讲语音转文本模块（v0.1 使用 sounddevice + faster-whisper）
NODE - 领域特定的类型化记忆系统，存储用户过去的表述
MIRROR - 反思性响应生成：引用用户过去的话语，避免祈使句，以开放式问题结尾而非建议

实验结果摘要

记忆增强效果（`ko_native` 子集，建议策略）

模型	无记忆	检索增强	理想上限
Kanana 2.1B	4.7%	10.9%	15.6%
Qwen 2.5 3B	3.1%	12.5%	10.9%

语言衰减效应（Kanana 检索策略）

轨道	通过率
`en_subset`（英文记忆库）	0.0%
`ko_translated`（韩语查询，英文记忆库）	5.0%
`ko_native`（全程韩语）	10.9%

反思策略 vs 建议策略对比

在情感共鸣（85%）和开放式提问（92%）维度上，反思策略显著优于建议策略。

模型与成本

检索模型：multilingual-e5-small 余弦检索器
学生模型（SUTs）：Kanana 2.1B、Qwen 2.5 3B
硬件：单张 L40S GPU
延迟：每次响应 < 2.7 秒
总 API 成本：约 4 美元（使用 haiku-4.5 / gpt-4o-mini / gemini-2.5-flash 级别模型）

使用方式

加载数据集

python from datasets import load_dataset ko_native = load_dataset("chanyoungkim/heard-bench", "ko_native", split="test") ko_translated = load_dataset("chanyoungkim/heard-bench", "ko_translated", split="test") en_subset = load_dataset("chanyoungkim/heard-bench", "en_subset", split="test")

快速开始

bash git clone https://github.com/cykim05/heard cd heard python -m venv .venv && source .venv/bin/activate pip install -r requirements.txt

引用方式

bibtex @misc{heard-bench-2026, title = {heard-bench: A Korean Long-Term Memory Benchmark for Solo-Business Monologue}, author = {Kim, Chanyoung}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/chanyoungkim/heard-bench}} }

搜集汇总

数据集介绍

构建方式

Heard-bench数据集由韩国科学技术院（KAIST）的研究者构建，专注于夜间个体经营者的独白场景。其构建流程始于利用语言模型生成约2,046条自述式话语，形成初始语料库，随后从中抽取三个子集：en_subset（100个英文条目）、ko_translated（100个韩文查询但英文背景条目）和ko_native（70个纯韩文条目），覆盖六种长期记忆能力（信息提取、匹配检索、知识更新、时间推理、抽象概括与反思）。为确保数据集质量，所有条目经过对抗性筛选以排除无记忆基线可解答的内容，并通过四门验证及作者审查，最终形成270个条目的评测基准。

使用方法

使用者可通过HuggingFace数据集库直接加载heard-bench的三个子集，使用load_dataset函数指定配置名称（如ko_native）即可获取测试集。数据集的完整复现流程按天组织，从话语生成（脚本01）、子集采样（02）、场景构建（03）、对抗过滤（04）到翻译（05）、自动验证（06），再到索引构建（07a）、模型评估（07）与法官评判（08），最后聚合指标（09）并生成图表（10）。所有脚本均为独立命令行接口，支持磁盘缓存以实现高效重复运行，总API消耗约4美元，适合在单块L40S GPU上进行端到端实验。

背景与挑战

背景概述

Heard v0.1 是由韩国研究者 Chanyoung Kim 于 2026 年创建的一个专注于韩语独白长期记忆评估的基准数据集。该数据集源于对韩国约 140 万个体经营业主的洞察——他们整日独自工作，内心独白无人倾听。为填补现有基准（如 LongMemEval、PerLTQA、LoCoMo）在韩语、独白和个体经营领域交叉点的空白，heard-bench 应运而生。它包含 270 个精心设计的项目，涵盖 en_subset、ko_translated 和 ko_native 三个子轨迹，全面评估六种长期记忆能力（信息提取、记忆检索、知识利用、时序推理、抽象概括与反思）。该数据集为端侧韩语大语言模型的开发提供了重要的评估工具，推动了对话式 AI 在特定文化语境与独白场景下的研究。

当前挑战

该数据集面临的核心挑战源于其独特的领域定位。首先，在解决个体经营业主夜间独白场景中的长期记忆评估问题时，现有基准无法满足韩语、独白和商业话语的三重需求，迫使从头构建数据集。其次，构建过程中遭遇多项挑战：设计能精准模拟真实独白语境的 270 个测试项目，需采用对抗性过滤确保无记忆基线无法解决，并通过四门验证和作者审核保证质量；同时需处理语言轴上的衰减问题，实验表明韩语原生数据的需求并非偏好而是必要，翻译轨迹与原生轨迹的性能差异显著。此外，还需在成本约束下（API 花费仅约 4 美元）构建端到端检索流水线，实现每个响应延迟低于 2.7 秒，并设计区分咨询性与反思性提示策略的评估框架。

常用场景

经典使用场景

Heard-bench 数据集专为评估韩语单人多话者（solo-business）夜间独白场景下的长期记忆能力而设计，聚焦于反映个体过往决策时刻的反射性对话。其经典使用场景涵盖六项核心记忆能力：信息提取（IE）、记忆检索（MR）、知识更新（KU）、时间推理（TR）、抽象概括（ABS）以及反射性回应（REFL）。研究者可借助该数据集，验证端侧语言模型是否能在无外部记忆辅助时，准确引用用户曾言说的句子，并以开放式提问而非直接建议的方式完成回应，从而模拟深夜独自经营店铺者与自我对话时的真实交互。

解决学术问题

该数据集填补了韩语独白型长期记忆基准的空白，解决了现有基准（如 LongMemEval、PerLTQA、LoCoMo）无法同时满足韩语、独白、单人商业场景三大条件的学术困境。通过对抗性过滤确保基线模型无法凭借无记忆策略解答，并经四门验证与作者审查，显著提升了评测的鲁棒性与可靠性。其研究意义在于揭示了语言轴上的性能衰减现象：韩语原生数据带来的性能提升远超翻译数据，从而证实了场景特异性与语言原生性对长期记忆评测不可或缺。

实际应用

在实际应用中，Heard-bench 为开发面向韩国个体经营者（约140万人）的端侧智能助手提供了关键评测工具。例如，花店店主在深夜考虑是否提高玫瑰售价时，助手可基于过往自言自语记录，回放其曾表达的犹豫或判断，辅助其独立决策。该数据集赋能了低延迟（单次响应<2.7秒）、低成本（全套复现约4美元）的本地化部署，推动记忆增强型对话系统在隐私敏感、无网络环境下的实用化落地，尤其适用于小微企业的日常经营辅助。

数据集最近研究