ai-terms-public
收藏AI-Terms (Public) 数据集概述
数据集基本信息
- 名称:AI-Terms (Public)
- 许可证:CC-BY 4.0
- 语言:英语
- 任务类别:自动语音识别
- 标签:asr, speech, evaluation, benchmark, entity-recognition, technical-terminology
- 规模类别:n<1K
数据集描述
这是一个专注于技术性AI术语的自动语音识别评估基准,涵盖模型名称、公司名称、基准名称和挑战语音识别系统的新技术概念。数据集包含12个AI新闻内容的口语音频样本,每个样本均附有带词级时间戳的参考转录文本和用于实体级字符错误率分析的实体标注。音频由Ronan McGovern录制,用于测试爱尔兰口音英语使用者在技术性AI术语上的表现。
数据来源与处理
主题材料来源于https://news.smol.ai。脚本经过合成重写,以避免与在线文本逐字匹配,从而防止网络抓取训练数据造成的数据污染。
三层评估体系
该数据集是一个三层评估系统的一部分:
| 分割 | 访问权限 | 用途 |
|---|---|---|
| 公开 | 开放 | 用于检查和可复现性——任何人都可以下载和评估 |
| 半私有 | 保留 | 排行榜上报告分数——通过https://studio.trelis.com进行评估以防止污染 |
| 私有 | 保留,仅限开源模型 | 仅使用开源模型进行评估——从未暴露给专有API |
排行榜分数使用半私有分割以避免数据污染,同时提供公开分割以确保透明度。分割之间的实体重叠被最小化(在独特实体上的Jaccard相似度<5%)以防止跨分割泄漏。
实体标注
每一行包含一个entities列(JSON字符串),其中包含字符偏移标注:
json
[
{"text": "MiniMax", "category": "companies", "char_start": 0, "char_end": 7},
{"text": "M2.5", "category": "models", "char_start": 120, "char_end": 124}
]
类别包括:companies、models、products、benchmarks、people、technical。这些标注支持实体级字符错误率分析,以专门衡量ASR模型转录新型AI术语的能力,而不仅仅是整体准确率。
数据列说明
| 列名 | 类型 | 描述 |
|---|---|---|
audio |
音频 (16kHz) | 语音音频 |
text |
字符串 | 参考转录文本 |
text_ts |
字符串 | 带词级时间戳的转录文本 |
start_time |
浮点数 | 片段开始时间(秒) |
end_time |
浮点数 | 片段结束时间(秒) |
speech_duration |
浮点数 | 语音持续时间(秒) |
word_timestamps |
字符串 | 逐词时间数据 |
language |
字符串 | 语言代码 |
entities |
字符串 (JSON) | 带字符偏移的实体标注 |
评估方法
使用https://studio.trelis.com进行评估。评估结果包括整体字符错误率、实体字符错误率以及按类别划分的实体字符错误率细分。
排行榜
完整的ASR模型比较及字符错误率和实体字符错误率分数请参见:https://research.trelis.com/asr-model-comparison
引用
bibtex @dataset{trelis_ai_terms_2026, title={AI-Terms: ASR Benchmark for Technical AI Terminology}, author={McGovern, Ronan}, year={2026}, publisher={Trelis Research}, url={https://huggingface.co/datasets/Trelis/ai-terms-public} }




