five

clips/VaccinChatNL

收藏
Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clips/VaccinChatNL
下载链接
链接失效反馈
官方服务:
资源简介:
VaccinChatNL是一个关于COVID-19疫苗接种的荷兰语(弗拉芒语)FAQ数据集,包含12,833个用户问题,分为181个答案标签。该数据集是首个如此大规模的荷兰语多对一FAQ数据集。数据集的结构包括用户问题和答案标签,分为训练、验证和测试三个部分。数据集的创建过程是半自动的,通过迭代的方式逐步增加和修正数据。数据集的使用考虑了潜在的偏见,包括一些域外问题和不当言论。
提供机构:
clips
原始信息汇总

数据集概述

数据集名称

  • 名称: VaccinChatNL

数据集描述

数据集摘要

  • 摘要: VaccinChatNL是一个关于COVID-19疫苗接种的Flemish Dutch FAQ数据集,包含12,833个用户问题,分布在181个答案标签上,提供了大量语义等价的同义句(用户问题与答案标签之间的一对多映射)。这是首个此类规模的荷兰语一对多FAQ数据集。

支持的任务和排行榜

  • 任务: 文本分类
  • 用途: 用于训练荷兰语关于COVID-19疫苗接种常见问题的分类模型。

语言

  • 语言: 荷兰语(Flemish)
  • BCP-47代码: nl-BE

数据集结构

数据实例

  • 实例结构: 每个实例包含一个用户问题字符串和一个标注答案的标签字符串。

数据字段

  • 字段:
    • sentence1: 包含用户问题的字符串。
    • label: 包含意图名称(答案类别)的字符串。

数据分割

  • 分割: 训练集、验证集、测试集
  • 统计:
    • 训练集: 10,542个标注的用户问题
    • 验证集: 1,171个标注的用户问题
    • 测试集: 1,170个标注的用户问题

数据集创建

标注

  • 标注过程: 迭代半自动过程,通过训练文本分类模型并应用于公共聊天机器人,根据新问题预测标签并进行校正,逐步扩展数据集。
  • 标注者: CLiPS成员和学生,具有计算语言学背景。

个人和敏感信息

  • 信息处理: 数据已匿名化,用户问题无法追溯到特定个人。

使用数据集的考虑

偏见讨论

  • 偏见: 数据集包含真实用户问题,包括7%的域外问题或评论(标签: nlu_fallback),这类问题包括难以理解的问题、笑话和侮辱性评论。

附加信息

引用信息

  • 引用格式:

    @inproceedings{buhmann-etal-2022-domain, title = "Domain- and Task-Adaptation for {V}accin{C}hat{NL}, a {D}utch {COVID}-19 {FAQ} Answering Corpus and Classification Model", author = "Buhmann, Jeska and De Bruyn, Maxime and Lotfi, Ehsan and Daelemans, Walter", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", address = "Gyeongju, Republic of Korea", publisher = "International Committee on Computational Linguistics", url = "https://aclanthology.org/2022.coling-1.312", pages = "3539--3549" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作