sonos-nlu-benchmark/snips_built_in_intents
收藏数据集卡片 for SNIPS Natural Language Understanding benchmark
数据集描述
数据集摘要
SNIPS Natural Language Understanding benchmark 数据集最初用于比较不同的语音助手,并作为公共数据集发布在 https://github.com/sonos/nlu-benchmark 的 2016-12-built-in-intents 文件夹中。该数据集包含 328 个话语,涵盖 10 个意图类别。
支持的任务和排行榜
目前没有相关的共享任务。
语言
英语
数据集结构
数据实例
数据集包含 328 个话语,涵盖 10 个意图类别。每个样本示例如下:
{label: 8, text: Transit directions to Barcelona Pizza.}
数据字段
text: 表达某些用户意图的文本话语。label: 文本话语的意图标签。
数据分割
源数据未分割。
数据集创建
策划理由
该数据集最初是为了比较多个语音助手的性能而创建的。然而,这些标记的话语对于开发和基准测试文本聊天机器人也很有用。
源数据
初始数据收集和规范化
数据收集方式不明确。根据 Medium 文章:The benchmark relies on a set of 328 queries built by the business team at Snips, and kept secret from data scientists and engineers throughout the development of the solution.
源语言生产者
最初由 snips.ai 准备。Snips 团队已于 2019 年 11 月加入 Sonos。这些开放数据集仍然可用,其访问现在由 Sonos Voice Experience Team 管理。如有任何问题,请发送电子邮件至 sve-research@sonos.com。
注释
注释过程
数据收集方式不明确。根据 Medium 文章:The benchmark relies on a set of 328 queries built by the business team at Snips, and kept secret from data scientists and engineers throughout the development of the solution.
注释者
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
最初由 snips.ai 准备。Snips 团队已于 2019 年 11 月加入 Sonos。这些开放数据集仍然可用,其访问现在由 Sonos Voice Experience Team 管理。如有任何问题,请发送电子邮件至 sve-research@sonos.com。
许可信息
源数据根据 Creative Commons Zero v1.0 Universal 许可发布。
引用信息
任何基于这些数据集的出版物都必须包含以下论文的完整引用,该论文由 Snips 团队发布: Coucke A. et al., "Snips Voice Platform: an embedded Spoken Language Understanding system for private-by-design voice interfaces." CoRR 2018, https://arxiv.org/abs/1805.10190
贡献
感谢 @bduvenhage 添加此数据集。




