HearSay Benchmark

github2026-01-13 更新2026-01-23 收录

下载链接：

https://github.com/JinWang79/HearSay_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

HearSay是第一个全面的基准测试，旨在研究音频大型语言模型是否仅通过声学声纹无意中泄露用户隐私。该数据集由超过22,000个真实世界的音频片段构建，涵盖八个敏感属性，包括年龄、性别、健康状况和收入。

HearSay is the first comprehensive benchmark designed to investigate whether audio large language models (LLMs) inadvertently disclose user privacy solely through acoustic voiceprints. This dataset is constructed from over 22,000 real-world audio clips, covering eight sensitive attributes including age, gender, health status, and income.

创建时间：

2026-01-07

原始信息汇总

HearSay Benchmark 数据集概述

数据集简介

HearSay 是首个全面的基准测试，旨在研究音频大语言模型是否仅通过声学声纹无意中泄露用户隐私。该基准测试基于超过22,000个真实世界的音频片段构建，涵盖八个敏感属性。

核心特性

研究目标：调查音频大语言模型的隐私泄露风险。
数据规模：包含超过22,000个音频片段。
敏感属性：涵盖八个类别，包括年龄、性别、健康状况和收入。
关键发现：评估揭示了关键漏洞，模型可以从非语义音频中以惊人的准确率推断私人信息（例如，性别推断准确率达92.89%），先进的推理机制进一步放大了这些风险。

数据集内容与结构

数据集目录结构如下：

HearSay/ ├── dataset/ # 数据集样本和标签 │ ├── audio/ # 音频片段（wav/mp3格式） │ └── label/ # 地面真实标签（json/csv格式）

音频数据：存储在 dataset/audio/ 目录下。
标签数据：存储在 dataset/label/ 目录下，提供地面真实标签。

获取与使用

完整数据集发布：为确保合乎道德的使用和隐私保护，完整的 HearSay 数据集（包含22,000多个片段）仅限于学术研究用途。
获取方式：有关进一步查询，请联系邮箱：jingw6956@gmail.com。

相关资源

论文引用： bibtex @article{wang2026hearsay, title={HearSay Benchmark: Do Audio LLMs Leak What They Hear?}, author={Wang, Jin and Lin, Liang and Luo, Kaiwen and Wang, Weiliu and Chen, Yitian and Aloqaily, Moayad and Tang, Xuehai and Zhou, Zhenhong and Wang, Kun and Sun, Li and others}, journal={arXiv preprint arXiv:2601.03783}, year={2026} }

搜集汇总

数据集介绍

构建方式

在音频大语言模型隐私风险研究领域，HearSay基准数据集通过系统化的方法构建而成。该数据集采集了超过22,000条真实世界音频片段，这些片段覆盖了年龄、性别、健康状况及收入等八类敏感属性。构建过程中，研究者精心设计了非语义音频样本的筛选与标注流程，确保数据能够有效模拟现实场景中语音生物特征所携带的隐私信息，从而为评估模型在声纹层面的隐私泄露风险提供了可靠的数据基础。

特点

HearSay数据集展现出多方面的显著特点。其核心在于专注于声纹隐私泄露的评估，首次系统性地将音频大语言模型的隐私风险纳入量化分析框架。数据集涵盖的敏感属性维度广泛，且所有音频均来源于真实环境，增强了评估的生态效度。数据组织清晰，包含独立的音频文件与标签目录，便于研究者进行模型推理与盲测实验。该基准还提供了完整的评估脚本与模型接口，支持对多种主流音频大语言模型进行标准化测试。

使用方法

使用HearSay基准进行隐私评估需遵循结构化的操作流程。首先需配置独立的Python环境并安装项目依赖。接着，用户需根据所评估的模型类型，参照其官方文档设置相应的推理环境，对于需API调用的模型则要在环境变量中配置密钥。通过修改主脚本中的模型路径注册表，可以指定本地模型检查点的位置。评估执行时，通过命令行参数指定目标模型与提示类型，即可运行核心的隐私推断实验，系统将自动加载数据集并输出模型在各项敏感属性上的推断性能结果。

背景与挑战

背景概述

音频大语言模型在语音理解与生成方面取得了显著进展，但其潜在的隐私泄露风险尚未得到充分探究。HearSay基准数据集于2026年由Jin Wang等研究人员提出，是首个系统评估音频大语言模型是否通过声学声纹无意泄露用户隐私的综合性基准。该数据集构建于超过22,000条真实世界音频片段之上，涵盖年龄、性别、健康状况及收入等八类敏感属性，旨在揭示模型从非语义音频中推断私人信息的潜在能力，为音频人工智能领域的隐私安全研究提供了关键的数据基础与评估框架。

当前挑战

HearSay基准所针对的核心挑战在于探究音频大语言模型在隐私泄露方面的脆弱性，即模型能否仅从声音特征中高精度地推断出用户的敏感属性，例如性别判断准确率可达92.89%，这暴露了当前模型在隐私保护上的严重缺陷。在数据集构建过程中，挑战主要包括如何从真实场景中收集并标注涵盖多维度敏感属性的高质量音频数据，同时确保数据来源的合法性与伦理合规性，以及如何在学术研究需求与个人隐私保护之间取得平衡，从而限制了数据集的完全公开访问。

常用场景

经典使用场景

在音频大语言模型（ALLMs）的隐私安全研究领域，HearSay Benchmark 提供了一个标准化的评估框架，用于系统性地检测模型是否通过声学特征泄露用户敏感信息。该数据集整合了超过22,000条真实世界音频片段，覆盖年龄、性别、健康状况及收入等八类敏感属性，研究者通过设计盲测与推理任务，能够量化模型在非语义音频输入下的隐私推断能力，从而揭示ALLMs在语音处理中的潜在风险。

衍生相关工作

自HearSay Benchmark 发布以来，已衍生出一系列关注音频模型隐私与安全性的经典研究工作。例如，基于其评估框架，学者们开发了对抗性训练方法以增强模型鲁棒性，或设计了差分隐私机制来抑制声纹信息泄露。此外，该基准也激励了跨模态隐私研究，将音频隐私问题扩展至多模态大语言模型，推动了整个人工智能安全社区的进步。

数据集最近研究