five

PRiSM

收藏
arXiv2026-01-20 更新2026-01-22 收录
下载链接:
https://github.com/changelinglab/prism
下载链接
链接失效反馈
官方服务:
资源简介:
PRiSM是由卡内基梅隆大学等机构创建的开源音素识别基准测试数据集,旨在通过标准化评估方法揭示语音模型在音素识别中的盲点。数据集包含多种语言的语音样本,覆盖了临床、教育和多语言环境下的应用场景,通过转录和表示探针评估模型的音素识别能力。数据来源于多个公开语音数据集,如TIMIT、L2-ARCTIC等,并经过统一处理以确保评估的一致性和可扩展性。该数据集的应用领域包括语音病理学分析、第二语言学习和多语言语音处理,旨在推动具有强大音素能力的多语言语音模型的发展。

PRiSM is an open-source phoneme recognition benchmark dataset developed by Carnegie Mellon University and other institutions. It is designed to uncover the blind spots of speech models in phoneme recognition through standardized evaluation methodologies. The dataset contains speech samples in multiple languages, covering application scenarios in clinical, educational, and multilingual environments, and evaluates the phoneme recognition capabilities of models via transcription and representation probes. Its data is sourced from multiple public speech datasets such as TIMIT, L2-ARCTIC, and others, and has undergone unified processing to ensure the consistency and scalability of evaluations. The application fields of this dataset include speech pathology analysis, second language learning, and multilingual speech processing, and it aims to promote the development of multilingual speech models with robust phoneme capabilities.
提供机构:
卡内基梅隆大学; 光州科学技术院; 德克萨斯大学奥斯汀分校; 慕尼黑大学; 加州大学伯克利分校; 英伟达; 不列颠哥伦比亚大学
创建时间:
2026-01-20
原始信息汇总

PRiSM 数据集概述

数据集简介

PRiSM 是一个用于评估语音学模型的基准测试数据集。

核心用途

  • 评估语音学模型。

快速开始

  1. 克隆项目: bash git clone git@github.com:changelinglab/prism.git cd prism

  2. 创建环境并安装依赖(可使用提供的 setup_uv.sh 脚本)。

运行方式

  • 使用默认配置训练模型: bash

    在CPU上训练

    python src/main.py trainer=cpu

    在GPU上训练

    python src/main.py trainer=gpu

  • 使用特定实验配置训练模型: bash

    使用隐藏表示进行探测实验

    python src/main.py experiment=probing/geolocation_vaani_powsm

    进行推理实验

    python src/main.py experiment=inference/vaani_powsmpr

  • 可通过命令行覆盖参数: bash python src/main.py trainer.max_epochs=20 data.batch_size=64

更多文档

  • 功能与能力:https://github.com/changelinglab/prism/blob/main/docs/features.md
  • 运行推理:https://github.com/changelinglab/prism/blob/main/docs/running_inference.md
  • 标记化工作流:https://github.com/changelinglab/prism/blob/main/docs/tokenization.md
  • 贡献指南:https://github.com/changelinglab/prism/blob/main/CONTRIBUTING.md

引用

如果研究中使用此代码,请引用论文: bibtex @misc{prism2026, title={PRiSM: Benchmarking Phone Realization in Speech Models}, author={Shikhar Bharadwaj and Chin-Jou Li and Yoonjae Kim and Kwanghee Choi and Eunjung Yeo and Ryan Soh-Eun Shim and Hanyu Zhou and Brendon Boldt and Karen Rosero Jacome and Kalvin Chang and Darsh Agrawal and Keer Xu and Chao-Han Huck Yang and Jian Zhu and Shinji Watanabe and David R. Mortensen}, year={2026}, eprint={2601.14046}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.14046}, }

致谢

此仓库结构基于 Lightning-Hydra-Template

搜集汇总
数据集介绍
main_image_url
构建方式
在语音处理领域,构建一个能够全面评估音素识别系统性能的基准数据集至关重要。PRiSM数据集的构建采用了系统化、多层次的整合策略,其核心在于将内在评估与外在评估任务有机结合。内在评估部分汇集了TIMIT、L2-ARCTIC、Speech Accent Archive等涵盖英语地域变体与非母语语音的经典数据集,以及DoReCo、VoxAngeles、Tusom2021等包含大量未见语言的语料库,旨在测试模型对已知语言模式的依赖程度及其跨语言的音素泛化能力。外在评估部分则精心选取了病理语音、第二语言评估及多语言识别三大应用场景下的多个子任务数据集,如EasyCall、UASpeech、UltraSuite、EdAcc、Speechocean762、FLEURS-24和Vaani等,通过转录探针和表征探针两种方式,系统性地衡量音素信息在具体下游任务中的实际效用。
特点
PRiSM数据集的核心特点在于其开创性的评估框架设计。它首次将音素识别系统的评估从单一的内在转录准确性,拓展至内在核心能力与外在应用效用的双重维度。内在评估创新性地采用了基于发音特征的音素特征错误率,相比传统的音素错误率,能更细致地度量预测与参考转录在声学实现层面的差异。外在评估则通过构建转录探针和表征探针,分别考察系统生成的显式音素符号序列和模型内部隐式表征在下游任务中的表现,从而全面揭示音素信息的传递与利用机制。该数据集覆盖了从区域变体、非母语语音到低资源濒危语言的广泛语言多样性,并聚焦于临床、教育等具有实际社会价值的应用场景,为衡量语音模型的鲁棒音素感知能力提供了前所未有的标准化平台。
使用方法
PRiSM数据集为研究者提供了一个系统、可复现的基准测试工具包。使用该数据集时,首先需将待评估的音素识别系统接入其评估框架。对于内在评估,系统需对指定测试集的语音进行音素转录,其输出将与人工标注的参考转录进行对比,计算音素特征错误率,以此衡量模型的核心转录能力。对于外在评估,则需利用数据集提供的两种探针:转录探针将系统预测的音素符号序列作为输入,训练一个基于文本的轻量级分类或回归模型;表征探针则提取模型特定层的隐藏状态表示,通过时序池化与多层感知机完成下游任务。用户可通过该框架,在涵盖病理语音可懂度预测、L2口音分类、语言地理定位等多样化任务上,全面比较不同模型架构、训练策略在音素信息提取与应用方面的性能差异,从而推动构建更具通用性和鲁棒性的多语言语音模型。
背景与挑战
背景概述
语音识别领域长期致力于构建语言无关的建模接口,以实现跨语言语音处理与音素分析。在此背景下,PRiSM数据集于2026年由卡内基梅隆大学、光州科学技术院、德克萨斯大学奥斯汀分校等机构的研究团队联合创建,旨在填补语音模型音素实现能力评估的空白。该数据集聚焦于音素识别系统的核心能力与下游应用效用,通过标准化的内在转录评估与外在临床、教育及多语言场景评估,首次构建了开源基准框架。PRiSM的建立推动了语音模型向具备鲁棒音素能力的多语言系统发展,为研究者提供了可复现、可扩展的评估工具,对语音技术领域的标准化进程产生了深远影响。
当前挑战
PRiSM数据集致力于解决音素识别领域的两大核心挑战。在领域问题层面,传统评估仅关注表层转录准确率,难以全面衡量模型对语音信号中细微声学差异的捕捉能力,也无法有效关联转录精度与实际应用效能之间的内在联系。构建过程中面临多重技术挑战:首先,音素标注数据稀缺且标注标准不统一,导致跨语言比较困难;其次,需要设计同时涵盖内在转录错误率与外在下游任务效用的综合评价体系;再者,如何平衡不同语言、方言及病理语音的覆盖范围,避免数据偏差影响评估公正性亦是关键难题。这些挑战共同塑造了数据集的多维度评估架构。
常用场景
经典使用场景
在语音处理领域,PRiSM数据集作为首个开源基准测试平台,专为评估音素识别系统的核心能力而设计。其经典使用场景聚焦于对音素识别模型进行内在与外在的双重评估,内在评估通过音素特征错误率衡量转录准确性,外在评估则借助转录探针和表征探针,在临床病理语音、第二语言习得及多语言语音识别等下游任务中检验系统的实际效用。该数据集通过标准化测试流程,为研究者提供了系统比较不同模型在跨语言音素感知性能上的统一框架,尤其适用于分析模型在已见语言变体与未见语言上的泛化能力。
实际应用
PRiSM数据集的实际应用场景广泛覆盖了需要精细音素分析的多个领域。在临床语音学中,其可用于评估病理语音(如构音障碍)的严重程度或辅助儿童言语障碍的检测,为诊断与干预提供量化依据。在语言教育领域,该数据集支持第二语言发音评估与母语背景分类,助力个性化发音反馈系统的开发。此外,在多语言语音技术中,PRiSM能够用于语言识别、方言地理定位及未知语言的音素库存归纳,这些功能对于构建包容性语音技术、支持低资源语言文档化以及理解语言间的音系差异具有重要价值。
衍生相关工作
围绕PRiSM数据集,已衍生出一系列聚焦于提升音素识别模型性能与评估方法的经典研究工作。例如,基于其评估框架,研究者深入探讨了编码器-CTC架构在音素识别中的稳定性优势,以及多语言训练数据对模型泛化至未见语言的关键作用。相关工作还分析了大型音频语言模型在音素任务上的局限性,并推动了如ZIPA、POWSM等专门化音素识别模型的优化与比较。这些研究不仅验证了PRiSM基准的有效性,也进一步拓展了其在音系学分析、语音表示学习及多模态语音模型评估等交叉方向的应用深度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作