clips/VaccinChatNL
收藏Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clips/VaccinChatNL
下载链接
链接失效反馈官方服务:
资源简介:
VaccinChatNL是一个关于COVID-19疫苗接种的荷兰语(弗拉芒语)FAQ数据集,包含12,833个用户问题,分为181个答案标签。该数据集是首个如此大规模的荷兰语多对一FAQ数据集。数据集的结构包括用户问题和答案标签,分为训练、验证和测试三个部分。数据集的创建过程是半自动的,通过迭代的方式逐步增加和修正数据。数据集的使用考虑了潜在的偏见,包括一些域外问题和不当言论。
提供机构:
clips
原始信息汇总
数据集概述
数据集名称
- 名称: VaccinChatNL
数据集描述
数据集摘要
- 摘要: VaccinChatNL是一个关于COVID-19疫苗接种的Flemish Dutch FAQ数据集,包含12,833个用户问题,分布在181个答案标签上,提供了大量语义等价的同义句(用户问题与答案标签之间的一对多映射)。这是首个此类规模的荷兰语一对多FAQ数据集。
支持的任务和排行榜
- 任务: 文本分类
- 用途: 用于训练荷兰语关于COVID-19疫苗接种常见问题的分类模型。
语言
- 语言: 荷兰语(Flemish)
- BCP-47代码: nl-BE
数据集结构
数据实例
- 实例结构: 每个实例包含一个用户问题字符串和一个标注答案的标签字符串。
数据字段
- 字段:
sentence1: 包含用户问题的字符串。label: 包含意图名称(答案类别)的字符串。
数据分割
- 分割: 训练集、验证集、测试集
- 统计:
- 训练集: 10,542个标注的用户问题
- 验证集: 1,171个标注的用户问题
- 测试集: 1,170个标注的用户问题
数据集创建
标注
- 标注过程: 迭代半自动过程,通过训练文本分类模型并应用于公共聊天机器人,根据新问题预测标签并进行校正,逐步扩展数据集。
- 标注者: CLiPS成员和学生,具有计算语言学背景。
个人和敏感信息
- 信息处理: 数据已匿名化,用户问题无法追溯到特定个人。
使用数据集的考虑
偏见讨论
- 偏见: 数据集包含真实用户问题,包括7%的域外问题或评论(标签: nlu_fallback),这类问题包括难以理解的问题、笑话和侮辱性评论。
附加信息
引用信息
-
引用格式:
@inproceedings{buhmann-etal-2022-domain, title = "Domain- and Task-Adaptation for {V}accin{C}hat{NL}, a {D}utch {COVID}-19 {FAQ} Answering Corpus and Classification Model", author = "Buhmann, Jeska and De Bruyn, Maxime and Lotfi, Ehsan and Daelemans, Walter", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", address = "Gyeongju, Republic of Korea", publisher = "International Committee on Computational Linguistics", url = "https://aclanthology.org/2022.coling-1.312", pages = "3539--3549" }



