projecte-aina/CoQCat
收藏数据集概述
数据集描述
数据集摘要
名称: CoQCat - Conversational Question Answering in Catalan
语言: 加泰罗尼亚语 (ca-ES)
许可证: CC BY-NC-ND 4.0
大小: 10K<n<100K
任务类型: 对话生成, 抽取式问答, 封闭领域问答
数据集组成: 89,364个问答对,来源于6,000个文本段落,涉及六个不同领域。问题和回答保持对话风格,答案以自由文本格式呈现,并突出显示来自段落的证据。
支持的任务和排行榜
- 对话模型
- 问答系统
语言
数据集使用加泰罗尼亚语 (ca-ES)。
数据集结构
数据实例
数据集包含三个JSON文件,分别对应训练集、开发集和测试集。每个实例包含以下字段:
source: 文本来源id: 实例IDfilename: 文件名title: 标题story: 故事文本questions: 问题列表,每个问题包含input_text和turn_idanswers: 答案列表,每个答案包含input_text,span_text,span_start,span_end和turn_idadditional_answers: 仅在开发集和测试集中,包含额外的答案列表
数据字段
source: 字符串id: 字符串filename: 字符串story: 字符串questions: 包含字典的列表,每个字典包含input_text和turn_idanswers: 包含字典的列表,每个字典包含input_text,span_text,span_start,span_end和turn_idadditional_answers: 字典,包含0和1两个键,每个键对应一个包含字典的列表,与answers结构相同
数据分割
dev.json: 8,909个问答示例,600个文本段落,来自4个领域test.json: 8,986个问答示例,600个文本段落,来自6个领域train.json: 71,489个问答示例,4800个文本段落,来自4个领域
数据集创建
策划理由
创建此数据集旨在促进加泰罗尼亚语这一低资源语言的模型开发。
源数据
数据来源于不同领域和来源,包括加泰罗尼亚语维基百科、Gutenberg项目、VilaWeb、Petites històries和电影剧情。
标注
标注工作由M47 labs公司通过公开招标过程进行。标注团队由至少4名标注人员组成,最好是人文或社会科学领域的学生或毕业生,具有加泰罗尼亚语的优秀知识(最低C1水平),以及一名有经验的资深协调员。
使用数据的注意事项
数据集的社会影响
希望此数据集能帮助开发加泰罗尼亚语的虚拟助手,这是一种经常被忽视的语言。
附加信息
数据集策展人
巴塞罗那超级计算中心的语言技术单元 (langtech@bsc.es)
许可证信息
此工作基于CC BY-NC-ND 4.0国际许可证。
引用信息
@inproceedings{gonzalez-agirre-etal-2024-building-data, title = "Building a Data Infrastructure for a Mid-Resource Language: The Case of {C}atalan", author = "Gonzalez-Agirre, Aitor and Marimon, Montserrat and Rodriguez-Penagos, Carlos and Aula-Blasco, Javier and Baucells, Irene and Armentano-Oller, Carme and Palomar-Giner, Jorge and Kulebi, Baybars and Villegas, Marta", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.231", pages = "2556--2566", }
贡献
感谢M. Carme Marí和VilaWeb团队允许我们使用他们的文本,以及所有加泰罗尼亚语维基百科和Gutenberg项目的志愿者。



