intents-for-eval
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/OpenVoiceOS/intents-for-eval
下载链接
链接失效反馈官方服务:
资源简介:
OVOS Intent Benchmark是一个用于语音助手意图分类和槽位填充的多语言基准测试数据集,旨在为不同类型的意图引擎(包括基于关键词、模板和嵌入的方法)提供统一的评估标准。数据集涵盖50个意图,涉及媒体、定时器与闹钟、智能家居、通信、导航、搜索与问答、天气、日历、系统控制和新闻等10个领域,并支持英语(美式)、葡萄牙语(葡萄牙和巴西变体)、西班牙语(西班牙)、法语、德语、意大利语、荷兰语、加泰罗尼亚语、加利西亚语、丹麦语和巴斯克语等12种语言。数据总规模为33,600行,包括训练集和测试集。训练集分为模板格式(包含带槽位占位符的语句模板)和关键词格式(包含Adapt风格的关键词规则),测试集包含完全自然表达的语句,并标注了预期意图和槽位,进一步细分为多个评估桶(如模板变体、语义改写、同领域不同意图等),以全面评估模型在不同场景下的鲁棒性。数据集适用于意图分类和槽位填充任务,可用于训练和评估语音助手系统。数据由Claude Opus在人工指导下生成,遵循严格的创作和验证流程,确保语言本地化和内容质量,采用Apache-2.0许可证发布。
OVOS Intent Benchmark is a multilingual benchmarking dataset for intent classification and slot filling in voice assistants, designed to provide a unified evaluation standard for different types of intent engines, including keyword-based, template-based, and embedding-based methods. The dataset covers 50 intents across 10 domains such as media, timers & alarms, smart home, communication, navigation, search & Q&A, weather, calendar, system control, and news, and supports 12 languages including English (US), Portuguese (Portugal and Brazil variants), Spanish (Spain), French, German, Italian, Dutch, Catalan, Galician, Danish, and Basque. The total data size is 33,600 rows, including training and test sets. The training set is divided into two formats: template format (containing sentence templates with slot placeholders) and keyword format (containing Adapt-style keyword rules). The test set consists of fully natural utterances annotated with expected intents and slots, and is further subdivided into multiple evaluation buckets (e.g., template variants, paraphrases, near out-of-domain, far out-of-domain, ASR noise simulation, and typos) to comprehensively assess model robustness in different scenarios. The dataset is suitable for intent classification and slot filling tasks and can be used for training and evaluating voice assistant systems. The data is generated by Claude Opus under human guidance, following a strict creation and validation process to ensure language localization and content quality, and is released under the Apache-2.0 license.
创建时间:
2026-05-19
原始信息汇总
数据集概述
OVOS Intent Benchmark 是一个面向语音助手意图分类和槽位提取的基准数据集,旨在为不同的意图引擎(基于关键词、模板或嵌入)提供统一的评测平台。数据集覆盖 50 个意图,分属 10 个领域,并支持 12 种语言。
关键统计
- 意图数量:50 个(横跨 10 个领域)。
- 语言数量:12 种(en-US, pt-PT, pt-BR, es-ES, fr-FR, de-DE, it-IT, nl-NL, ca-ES, gl-ES, da-DK, eu-ES)。
- 训练数据(模板):每种语言 1,000 行,总计 12,000 行。
- 训练数据(关键词):每种语言 50 行,总计 600 行。
- 测试数据:每种语言 1,750 行,总计 21,000 行。
- 总数据量:33,600 行。
数据结构
每种语言包含三个文件:
train_templates.jsonl:用于训练模板匹配类引擎(如 padacioso、padatious、nebulento)和嵌入类引擎(如 m2v、hknn)。每行包含意图 ID、领域、模板(含{slot}占位符)和槽位模式。train_keywords.jsonl:用于训练关键词匹配类引擎(如 Adapt、Palavreado)。每行包含一个完整的 Adapt 风格关键词规则,包括必需词汇组和可选词汇组。test.jsonl:用于所有引擎评测的共用测试集。每行包含完整的自然语言语句、真实意图标签和真实槽位标签。
测试集分类(每种语言)
| 测试桶 | 数量 | 描述 |
|---|---|---|
template |
500 | 接近训练模板的表面变体。 |
paraphrase |
700 | 相同意图的自然语言改写。 |
near_ood |
400 | 同领域不同意图的“近离群”样本,用于测量意图间混淆。 |
far_ood |
50 | 意图无关的闲聊或无意义文本(预期意图为 null)。 |
asr_noise |
50 | 模拟 ASR 识别错误(如谐音、功能词丢失)。 |
typos |
50 | 模拟键盘或聊天中的拼写错误。 |
领域
media, timers_alarms, smarthome, communication, navigation, search_qa, weather, calendar, system_control, news。
数据模式示例
train_templates.jsonl:包含intent_id,domain,lang,template(如"play {song} by {artist}")和slots数组(包含名称、类型、是否必需、示例)。train_keywords.jsonl:包含intent_id,domain,lang,required_vocab(必须匹配的词汇组)和optional_vocab(加分词汇组,也提供槽位值池)。test.jsonl:包含utterance(完整句子),expected_intent,expected_slots(字典),split,domain,lang。
加载方式
每种语言提供三个配置 (config),需分别加载:
- 模板数据:
load_dataset("OpenVoiceOS/intents-for-eval", "en-US-templates", split="train") - 关键词数据:
load_dataset("OpenVoiceOS/intents-for-eval", "en-US-keywords", split="train") - 测试数据:
load_dataset("OpenVoiceOS/intents-for-eval", "en-US-test", split="test")
评测指标
- 意图分类:整体准确率、宏平均 F1、微平均 F1;离群样本的假阳性率;按测试桶的细粒度表现;每个意图的精确率/召回率/F1;延时(中位数、p95、p99)。
- 槽位提取:槽位级别的精确率/召回率/F1(token 级, BIO);槽位精确匹配;意图+槽位联合精确匹配;按槽位类型的细粒度表现。
语言列表
en-US, pt-PT, pt-BR, es-ES, fr-FR, de-DE, it-IT, nl-NL, ca-ES, gl-ES, da-DK, eu-ES。
数据集生成
- 由 Claude Opus 在人工指导下生成。每种语言的每个意图都是独立创作的,确保使用本地化词汇,而非机器翻译。
- 生成过程采用“批处理 + 质量门控”方式,每批次生成的 12 种语言数据需通过验证脚本和覆盖率检查。
- 测试桶的
paraphrase和near_ood由人工编写以确保与训练模板的词汇差异。 - 关键词规则确保至少有一个足够大的必需词汇组来区分意图。
已知局限
- 除英语外,其他语言内容尚未经过母语者审校。
far_ood样本量较小(每种语言 50 条),统计数据可能不稳定。- 训练集和测试集共享槽位值池,可能高估开放词汇槽位提取的真实表现。
许可协议
Apache-2.0。
搜集汇总
数据集介绍

构建方式
在智能语音助手领域,意图分类与槽位填充是核心任务,而多语言、多范式的基准数据集却长期匮乏。为此,OVOS社区发布了intents-for-eval数据集。该数据集基于50个意图、10个领域与12种语言构成的固定分类体系手工构建。数据构建过程严格遵循人工逐意图、逐语言单元生成,而非依赖英语模板的机器翻译流水线,从而确保每种语言都使用本土化的词汇表达(如西班牙语的"pon"而非英语的"play")。每批数据生成后均通过校验脚本与语言覆盖图进行质量把关,约20%的批次需返工修正。训练集包含模板格式(每意图20条带占位符的句子)与关键词格式(每意图1条Adapt风格的词汇规则),测试集则包含1750条完全自然化的语句。
特点
该数据集最显著的特点在于其范式中立性与多维度评测能力。它同时支持基于关键词(Adapt、Palavreado)、模板(Padatious、Padacioso、Nebulento)及嵌入(M2V、层次KNN)的语音助手意图引擎在相同数据上评分。测试集按难度切分为6个桶:模板变体(500条)、自然释义(700条)、同领域跨意图混淆(400条)、领域外无意义语句(50条)、ASR噪声仿真(50条)与键盘拼写错误(50条),前两者用于衡量泛化能力,后两者用于评估鲁棒性。所有语言均独立成集,鼓励使用本地特有实体(如节日、货币、新闻媒体),而非统一替换。
使用方法
用户可通过HuggingFace Datasets库便捷加载数据。每种语言暴露三个配置项:{lang}-templates(用于Padatious等模板引擎训练)、{lang}-keywords(用于Adapt等关键词引擎训练)以及{lang}-test(共享测试集)。例如,加载英语美国模板训练集、关键词训练集与测试集分别使用"en-US-templates"、"en-US-keywords"和"en-US-test"配置,并指定split参数为"train"或"test"。各配置的JSONL格式不同:模板行包含intent_id、domain、带有{slot}占位符的模板及槽位模式;关键词行包含required_vocab与optional_vocab分组;测试行则包含完全自然化的utterance及其gold intent与slots。
背景与挑战
背景概述
随着智能语音助手的广泛应用,意图识别与槽位填充作为人机对话系统的核心任务,其性能评估亟需一个标准化、多语言的基准数据集。OVOS Intent Benchmark(intents-for-eval)由OpenVoiceOS社区于2026年推出,旨在解决现有语音助手意图引擎在跨语言和跨范式评估上的碎片化问题。该数据集覆盖12种语言,包含50个意图类别(横跨媒体、智能家居、日历等10个领域),并提供模板、关键词及自然测试句三种文件格式,支持关键词匹配、模板匹配和嵌入匹配等多种范式。其最大贡献在于为不同架构的意图引擎提供了统一的评估标准,填补了多语言语音助手基准测试的空白,对推动开源语音助手生态的发展具有重要影响。
当前挑战
该数据集的核心挑战在于解决多语言意图识别和槽位填充的领域难题,特别是如何在同一框架下公平评估不同范式的引擎(如基于关键词的Adapt与基于嵌入的M2V)。构建过程中面临多重技术瓶颈:首先,每个意图在12种语言中均需手工构建领域特化的词汇(如西班牙语用'pon'而非'play'),避免机器翻译导致的语义偏差;其次,测试集需设计5个差异化的评估桶(如近OOD、ASR噪声、拼写错误),以模拟真实环境中的混淆与噪声;最后,训练与测试的槽值池共享导致开源词汇抽取难度被低估,且缺乏母语验证环节,多语言内容的准确性仍需迭代优化。
常用场景
经典使用场景
在语音助手与对话系统的研究领域中,意图分类与槽位填充构成了自然语言理解的核心任务。OVOS Intent Benchmark 数据集为此而生,其经典应用场景在于为多语言、多领域的语音助手提供统一的意图识别与槽位提取评估基准。该数据集覆盖12种语言、10个领域和50种意图,每个语言独立构建了模板式训练语料、关键词式训练规则以及细粒度的测试集,后者包含模板变体、复述改写、近域混淆样本、远域无关话语、ASR噪声和打字错误等多个子集,能够全面衡量模型在不同挑战下的鲁棒性与泛化能力。
解决学术问题
该数据集有效解决了学术界在多语言意图识别与槽位填充任务中缺乏统一、中立、多范式的评估基准这一关键问题。传统研究常使用单一语言、单一范式(如仅基于模板或仅基于嵌入)的数据集,导致不同方法的性能比较缺乏公平性。通过同时支持基于关键词、基于模板和基于嵌入的引擎在同一测试数据上打分,该数据集使得研究者能够系统性地分析不同算法在域内泛化、域间混淆以及开放域拒绝等方面的表现差异。其细粒度测试桶设计尤其有助于揭示意图分类中的内部混淆模式与误报率问题。
衍生相关工作
该数据集衍生了若干重要的相关研究工作,其中最具代表性的成果包括基于该基准框架实现的多种意图引擎适配器与基准测试运行器(ovos-intent-benchmark)。这些适配器分别对应了基于关键词的Adapt和Palavreado引擎、基于模板的Padatious、Padacioso和Nebulento引擎,以及基于嵌入的M2V和层次化KNN引擎,形成了完整的可复现评估流水线。此外,该数据集催生了关于多语言意图识别中跨语言迁移与零样本泛化的探索,以及针对开放集意图检测与域外拒绝能力的研究,推动了语音助手自然语言理解模块的标准化评测体系构建。
以上内容由遇见数据集搜集并总结生成



