five

KIND-Dataset/KIND

收藏
Hugging Face2024-03-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/KIND-Dataset/KIND
下载链接
链接失效反馈
官方服务:
资源简介:
KIND数据集是一个新的方言数据集,来源于一场数据马拉松竞赛。参赛者需要在固定时间内尽可能多地用他们自己的方言回答问题,并尽量减少错误。数据集包含方言代码、句子原始ID和文本字符串等字段。
提供机构:
KIND-Dataset
原始信息汇总

数据集概述

KIND数据集是一个新的方言数据集。该数据集源于一个数据马拉松竞赛,参赛者的目标是在固定时间内尽可能多地用自己方言回答提示,同时尽量减少错误。

数据字段

  • dialect_code: 指示文本所属特定方言的标签。
  • sentenceOriginID: 引用翻译的MSA句子(1000000-2000000)或链接到构建的问题数据集的引用(2000000-3000000)的标识符。
  • textString: 提交的句子。

引用信息

@inproceedings{yamani-etal-2024-kind, title = "The {KIND} Dataset: A Social Collaboration Approach for Nuanced Dialect Data Collection", author = "Yamani, Asma and Alziyady, Raghad and AlYami, Reem and Albelali, Salma and Albelali, Leina and Almulhim, Jawharah and Alsulami, Amjad and Alfarraj, Motaz and Al-Zaidy, Rabeah", editor = "Falk, Neele and Papi, Sara and Zhang, Mike", booktitle = "Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop", month = mar, year = "2024", address = "St. Julian{}s, Malta", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.eacl-srw.3", pages = "32--43", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作