PRiSM
收藏PRiSM 数据集概述
数据集简介
PRiSM 是一个用于评估语音学模型的基准测试数据集。
核心用途
- 评估语音学模型。
快速开始
-
克隆项目: bash git clone git@github.com:changelinglab/prism.git cd prism
-
创建环境并安装依赖(可使用提供的
setup_uv.sh脚本)。
运行方式
-
使用默认配置训练模型: bash
在CPU上训练
python src/main.py trainer=cpu
在GPU上训练
python src/main.py trainer=gpu
-
使用特定实验配置训练模型: bash
使用隐藏表示进行探测实验
python src/main.py experiment=probing/geolocation_vaani_powsm
进行推理实验
python src/main.py experiment=inference/vaani_powsmpr
-
可通过命令行覆盖参数: bash python src/main.py trainer.max_epochs=20 data.batch_size=64
更多文档
- 功能与能力:https://github.com/changelinglab/prism/blob/main/docs/features.md
- 运行推理:https://github.com/changelinglab/prism/blob/main/docs/running_inference.md
- 标记化工作流:https://github.com/changelinglab/prism/blob/main/docs/tokenization.md
- 贡献指南:https://github.com/changelinglab/prism/blob/main/CONTRIBUTING.md
引用
如果研究中使用此代码,请引用论文: bibtex @misc{prism2026, title={PRiSM: Benchmarking Phone Realization in Speech Models}, author={Shikhar Bharadwaj and Chin-Jou Li and Yoonjae Kim and Kwanghee Choi and Eunjung Yeo and Ryan Soh-Eun Shim and Hanyu Zhou and Brendon Boldt and Karen Rosero Jacome and Kalvin Chang and Darsh Agrawal and Keer Xu and Chao-Han Huck Yang and Jian Zhu and Shinji Watanabe and David R. Mortensen}, year={2026}, eprint={2601.14046}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.14046}, }
致谢
此仓库结构基于 Lightning-Hydra-Template。




