five

ai-terms-public

收藏
Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/Trelis/ai-terms-public
下载链接
链接失效反馈
官方服务:
资源简介:
AI-Terms (Public) 是一个专注于技术性AI术语的自动语音识别(ASR)评估基准数据集,旨在测试ASR系统在处理模型名称、公司名称、基准名称和新颖技术概念等专业术语时的表现。数据集包含12个AI新闻内容的音频样本,每个样本均标注有参考转录文本(带词级时间戳)和实体级字符偏移标注(包括公司、模型、产品、基准、人物和技术术语等类别)。音频由爱尔兰口音的英语使用者录制,适用于测试ASR系统对特定口音和技术术语的识别能力。数据来源为smol.ai新闻,并经过合成改写以避免与在线文本完全匹配,从而防止数据污染。数据集采用三层次评估系统(公开、半私有和私有),公开部分用于透明性和可复现性。数据集支持实体级字符错误率(CER)分析,以衡量ASR模型在技术术语上的转录准确性。数据集结构包括音频、文本、时间戳、语言代码和实体标注等字段。评估可通过Trelis Studio进行,结果包括总体CER、实体CER及分类别CER分析。数据集采用CC-BY 4.0许可,允许商业使用,但需署名。
提供机构:
Trelis
创建时间:
2026-03-10
原始信息汇总

AI-Terms (Public) 数据集概述

数据集基本信息

  • 名称:AI-Terms (Public)
  • 许可证:CC-BY 4.0
  • 语言:英语
  • 任务类别:自动语音识别
  • 标签:asr, speech, evaluation, benchmark, entity-recognition, technical-terminology
  • 规模类别:n<1K

数据集描述

这是一个专注于技术性AI术语的自动语音识别评估基准,涵盖模型名称、公司名称、基准名称和挑战语音识别系统的新技术概念。数据集包含12个AI新闻内容的口语音频样本,每个样本均附有带词级时间戳的参考转录文本和用于实体级字符错误率分析的实体标注。音频由Ronan McGovern录制,用于测试爱尔兰口音英语使用者在技术性AI术语上的表现。

数据来源与处理

主题材料来源于https://news.smol.ai。脚本经过合成重写,以避免与在线文本逐字匹配,从而防止网络抓取训练数据造成的数据污染。

三层评估体系

该数据集是一个三层评估系统的一部分:

分割 访问权限 用途
公开 开放 用于检查和可复现性——任何人都可以下载和评估
半私有 保留 排行榜上报告分数——通过https://studio.trelis.com进行评估以防止污染
私有 保留,仅限开源模型 仅使用开源模型进行评估——从未暴露给专有API

排行榜分数使用半私有分割以避免数据污染,同时提供公开分割以确保透明度。分割之间的实体重叠被最小化(在独特实体上的Jaccard相似度<5%)以防止跨分割泄漏。

实体标注

每一行包含一个entities列(JSON字符串),其中包含字符偏移标注: json [ {"text": "MiniMax", "category": "companies", "char_start": 0, "char_end": 7}, {"text": "M2.5", "category": "models", "char_start": 120, "char_end": 124} ]

类别包括:companiesmodelsproductsbenchmarkspeopletechnical。这些标注支持实体级字符错误率分析,以专门衡量ASR模型转录新型AI术语的能力,而不仅仅是整体准确率。

数据列说明

列名 类型 描述
audio 音频 (16kHz) 语音音频
text 字符串 参考转录文本
text_ts 字符串 带词级时间戳的转录文本
start_time 浮点数 片段开始时间(秒)
end_time 浮点数 片段结束时间(秒)
speech_duration 浮点数 语音持续时间(秒)
word_timestamps 字符串 逐词时间数据
language 字符串 语言代码
entities 字符串 (JSON) 带字符偏移的实体标注

评估方法

使用https://studio.trelis.com进行评估。评估结果包括整体字符错误率、实体字符错误率以及按类别划分的实体字符错误率细分。

排行榜

完整的ASR模型比较及字符错误率和实体字符错误率分数请参见:https://research.trelis.com/asr-model-comparison

引用

bibtex @dataset{trelis_ai_terms_2026, title={AI-Terms: ASR Benchmark for Technical AI Terminology}, author={McGovern, Ronan}, year={2026}, publisher={Trelis Research}, url={https://huggingface.co/datasets/Trelis/ai-terms-public} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自动语音识别领域,评估系统对专业术语的识别能力至关重要。AI-Terms (Public)数据集的构建过程体现了严谨的设计思路,其音频样本源自爱尔兰口音英语使用者朗读的AI新闻内容,并通过合成改写脚本避免了与网络文本的逐字匹配,从而有效防止了训练数据污染。该数据集精心标注了参考转录文本及其词级时间戳,并特别引入了基于字符偏移的实体注释,涵盖了公司、模型、产品、基准、人物和技术术语等多个类别,为细粒度的实体级字符错误率分析奠定了坚实基础。
特点
该数据集的核心特点在于其专注于技术性AI术语的评估基准,通过包含模型名称、公司名称、基准名称及新兴技术概念等挑战性内容,专门测试语音识别系统在专业领域的表现。数据集采用三层评估体系设计,公开部分确保透明性与可复现性,半私有部分用于排行榜评分以防止数据污染,私有部分则专用于开源模型评估,各分割间的实体重叠率被最小化以避免信息泄漏。此外,其提供的实体级字符错误率指标使得研究者能够精准衡量模型在转录新颖AI术语方面的性能,而非仅关注整体准确率。
使用方法
研究者可通过HuggingFace平台直接下载该公开数据集进行本地分析与评估。对于标准化评测,推荐使用Trelis Studio平台API提交评估任务,指定模型、数据集及语言参数后,系统将返回整体字符错误率、实体级字符错误率以及按类别细分的性能分析结果。数据集中的实体注释以JSON格式存储,便于用户提取并进行定制化的错误分析。该数据集的构建旨在支持对语音识别模型在技术术语处理能力上的深入比较与基准测试,相关评测结果可于官方排行榜查阅,以促进该领域的技术进步。
背景与挑战
背景概述
随着自动语音识别技术的广泛应用,其在专业领域术语识别上的局限性日益凸显,尤其是在快速演进的AI领域。AI-Terms数据集由Trelis研究机构于2026年创建,核心研究人员Ronan McGovern旨在构建一个专注于技术性AI术语的评估基准。该数据集聚焦于模型名称、公司名称、基准测试名称及新兴技术概念等实体识别,通过包含爱尔兰口音英语的音频样本,系统性地评估ASR系统在专业术语转录上的性能。其设计不仅促进了语音识别模型在特定领域适应性的研究,也为避免数据污染提供了创新的三层次评估框架,对推动ASR技术在实际应用中的鲁棒性发展具有重要影响。
当前挑战
该数据集致力于解决自动语音识别系统在处理新兴技术术语时面临的领域适应挑战,特别是针对AI领域快速产生的专有名词和实体名称的准确转录问题。构建过程中的主要挑战包括确保音频样本的口音多样性以增强模型泛化能力,以及通过合成重写脚本避免与网络文本的逐字匹配,从而防止训练数据污染。此外,数据集的实体标注需精确到字符级别以支持细粒度的错误率分析,同时在公开、半私有和私有分割之间最小化实体重叠,有效防止跨分割信息泄漏,确保评估结果的可靠性与公正性。
常用场景
经典使用场景
在自动语音识别领域,技术术语的准确转录一直是系统性能评估的关键挑战。AI-Terms数据集专为评估ASR模型在处理新兴AI技术术语时的表现而设计,其经典使用场景包括对模型名称、公司名称、基准测试名称等实体类别的识别精度进行细粒度分析。通过提供带有词级时间戳和实体标注的音频样本,该数据集使研究者能够深入探究ASR系统在专业领域语音识别中的局限性,特别是在处理爱尔兰口音英语与技术术语结合时的识别误差。
解决学术问题
该数据集有效解决了自动语音识别研究中技术术语识别精度不足的学术问题。传统ASR评估往往侧重于通用词汇的整体准确率,而忽视了专业领域实体转录的特殊性。AI-Terms通过引入实体级字符错误率分析,使研究者能够量化模型在特定类别术语上的性能差异,从而推动针对领域自适应和术语鲁棒性的算法改进。其三层基准测试结构进一步防止了数据污染,确保了评估结果的科学严谨性,为语音技术的前沿研究提供了可靠的实验基础。
衍生相关工作
围绕AI-Terms数据集,已衍生出多项聚焦于术语鲁棒性的语音识别研究。例如,基于其实体标注数据,研究者开发了针对技术术语的端到端自适应训练方法,以降低专业词汇的转录错误率。同时,该数据集的三层评估框架启发了其他领域基准测试的设计,促进了防止数据泄漏的评估协议标准化。相关成果已通过Trelis研究平台公开,并持续推动ASR模型在Leaderboard上的性能迭代,形成了以术语识别为核心的技术演进脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作