clips/VaccinChatNL

Name: clips/VaccinChatNL
Creator: clips
Published: 2023-03-21 15:22:36
License: 暂无描述

Hugging Face2023-03-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/clips/VaccinChatNL

下载链接

链接失效反馈

官方服务：

资源简介：

VaccinChatNL是一个关于COVID-19疫苗接种的荷兰语（弗拉芒语）FAQ数据集，包含12,833个用户问题，分为181个答案标签。该数据集是首个如此大规模的荷兰语多对一FAQ数据集。数据集的结构包括用户问题和答案标签，分为训练、验证和测试三个部分。数据集的创建过程是半自动的，通过迭代的方式逐步增加和修正数据。数据集的使用考虑了潜在的偏见，包括一些域外问题和不当言论。

提供机构：

clips

原始信息汇总

数据集概述

数据集名称

名称: VaccinChatNL

数据集描述

数据集摘要

摘要: VaccinChatNL是一个关于COVID-19疫苗接种的Flemish Dutch FAQ数据集，包含12,833个用户问题，分布在181个答案标签上，提供了大量语义等价的同义句（用户问题与答案标签之间的一对多映射）。这是首个此类规模的荷兰语一对多FAQ数据集。

支持的任务和排行榜

任务: 文本分类
用途: 用于训练荷兰语关于COVID-19疫苗接种常见问题的分类模型。

语言

语言: 荷兰语（Flemish）
BCP-47代码: nl-BE

数据集结构

数据实例

实例结构: 每个实例包含一个用户问题字符串和一个标注答案的标签字符串。

数据字段

字段:
- sentence1: 包含用户问题的字符串。
- label: 包含意图名称（答案类别）的字符串。

数据分割

分割: 训练集、验证集、测试集
统计:
- 训练集: 10,542个标注的用户问题
- 验证集: 1,171个标注的用户问题
- 测试集: 1,170个标注的用户问题

数据集创建

标注

标注过程: 迭代半自动过程，通过训练文本分类模型并应用于公共聊天机器人，根据新问题预测标签并进行校正，逐步扩展数据集。
标注者: CLiPS成员和学生，具有计算语言学背景。

个人和敏感信息

信息处理: 数据已匿名化，用户问题无法追溯到特定个人。

使用数据集的考虑

偏见讨论

偏见: 数据集包含真实用户问题，包括7%的域外问题或评论（标签: nlu_fallback），这类问题包括难以理解的问题、笑话和侮辱性评论。

附加信息

引用信息

引用格式:

@inproceedings{buhmann-etal-2022-domain, title = "Domain- and Task-Adaptation for {V}accin{C}hat{NL}, a {D}utch {COVID}-19 {FAQ} Answering Corpus and Classification Model", author = "Buhmann, Jeska and De Bruyn, Maxime and Lotfi, Ehsan and Daelemans, Walter", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", address = "Gyeongju, Republic of Korea", publisher = "International Committee on Computational Linguistics", url = "https://aclanthology.org/2022.coling-1.312", pages = "3539--3549" }

5,000+

优质数据集

54 个

任务类型

进入经典数据集