five

projecte-aina/CoQCat

收藏
Hugging Face2024-09-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CoQCat
下载链接
链接失效反馈
官方服务:
资源简介:
CoQCat是一个用于加泰罗尼亚语对话式问答的数据集,基于CoQA数据集构建。它包含89,364个问答对,来源于6,000个来自六个不同领域的文本段落。问题和回答设计为保持对话风格,答案以自由文本形式呈现,并从段落中突出显示证据。开发集和测试集中,每个问题还收集了两个额外的回答。该数据集旨在促进加泰罗尼亚语这一低资源语言的模型开发。

CoQCat is a dataset for Catalan conversational question answering, constructed based on the CoQA dataset. It contains 89,364 question-answer pairs, sourced from 6,000 text passages across six distinct domains. The questions and answers are designed to maintain a conversational style, with answers presented in free-text form and supporting evidence highlighted from the source paragraphs. For each question in the development and test sets, two additional answers were collected. This dataset aims to facilitate model development for Catalan, a low-resource language.
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集描述

数据集摘要

名称: CoQCat - Conversational Question Answering in Catalan
语言: 加泰罗尼亚语 (ca-ES)
许可证: CC BY-NC-ND 4.0
大小: 10K<n<100K
任务类型: 对话生成, 抽取式问答, 封闭领域问答
数据集组成: 89,364个问答对,来源于6,000个文本段落,涉及六个不同领域。问题和回答保持对话风格,答案以自由文本格式呈现,并突出显示来自段落的证据。

支持的任务和排行榜

  • 对话模型
  • 问答系统

语言

数据集使用加泰罗尼亚语 (ca-ES)。

数据集结构

数据实例

数据集包含三个JSON文件,分别对应训练集、开发集和测试集。每个实例包含以下字段:

  • source: 文本来源
  • id: 实例ID
  • filename: 文件名
  • title: 标题
  • story: 故事文本
  • questions: 问题列表,每个问题包含input_textturn_id
  • answers: 答案列表,每个答案包含input_text, span_text, span_start, span_endturn_id
  • additional_answers: 仅在开发集和测试集中,包含额外的答案列表

数据字段

  • source: 字符串
  • id: 字符串
  • filename: 字符串
  • story: 字符串
  • questions: 包含字典的列表,每个字典包含input_textturn_id
  • answers: 包含字典的列表,每个字典包含input_text, span_text, span_start, span_endturn_id
  • additional_answers: 字典,包含01两个键,每个键对应一个包含字典的列表,与answers结构相同

数据分割

  • dev.json: 8,909个问答示例,600个文本段落,来自4个领域
  • test.json: 8,986个问答示例,600个文本段落,来自6个领域
  • train.json: 71,489个问答示例,4800个文本段落,来自4个领域

数据集创建

策划理由

创建此数据集旨在促进加泰罗尼亚语这一低资源语言的模型开发。

源数据

数据来源于不同领域和来源,包括加泰罗尼亚语维基百科、Gutenberg项目、VilaWeb、Petites històries和电影剧情。

标注

标注工作由M47 labs公司通过公开招标过程进行。标注团队由至少4名标注人员组成,最好是人文或社会科学领域的学生或毕业生,具有加泰罗尼亚语的优秀知识(最低C1水平),以及一名有经验的资深协调员。

使用数据的注意事项

数据集的社会影响

希望此数据集能帮助开发加泰罗尼亚语的虚拟助手,这是一种经常被忽视的语言。

附加信息

数据集策展人

巴塞罗那超级计算中心的语言技术单元 (langtech@bsc.es)

许可证信息

此工作基于CC BY-NC-ND 4.0国际许可证。

引用信息

@inproceedings{gonzalez-agirre-etal-2024-building-data, title = "Building a Data Infrastructure for a Mid-Resource Language: The Case of {C}atalan", author = "Gonzalez-Agirre, Aitor and Marimon, Montserrat and Rodriguez-Penagos, Carlos and Aula-Blasco, Javier and Baucells, Irene and Armentano-Oller, Carme and Palomar-Giner, Jorge and Kulebi, Baybars and Villegas, Marta", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.231", pages = "2556--2566", }

DOI

贡献

感谢M. Carme Marí和VilaWeb团队允许我们使用他们的文本,以及所有加泰罗尼亚语维基百科和Gutenberg项目的志愿者。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作