projecte-aina/vilaquad
收藏Hugging Face2024-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/vilaquad
下载链接
链接失效反馈官方服务:
资源简介:
VilaQuAD是一个用于加泰罗尼亚语的抽取式问答数据集,包含2095篇来自VilaWeb新闻网站的加泰罗尼亚语新闻文章,每篇文章有1到5个问题。该数据集旨在支持加泰罗尼亚语这一资源较少语言的语言模型发展。数据集的结构包括文章的标题、上下文、问题及答案,数据被分为训练集、开发集和测试集。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: VilaQuAD
- 类型: 抽取式问答数据集
语言
- 语言: 加泰罗尼亚语 (
ca-ES)
许可
- 许可: CC-BY-SA-4.0
数据集大小
- 大小: 1K<n<10K
数据来源
- 来源: VilaWeb
任务类型
- 任务类型: 抽取式问答 (
extractive-qa)
数据集结构
- 数据实例: 每个实例包含ID、标题、上下文、问题和答案。
- 数据字段: 包括ID、标题、上下文、问题和答案列表,其中答案包含文本和起始偏移。
- 数据分割: 训练集、验证集和测试集。
数据集创建
- 创建理由: 为加泰罗尼亚语这种低资源语言的语言模型发展做出贡献。
- 源数据收集和标准化: 从VilaWeb随机选择2095篇文章。
- 注释过程: 委托创建1至5个问题,遵循SQuAD 1.0的指导方针。
- 注释者: 由专业公司雇佣的母语为加泰罗尼亚语的团队进行。
使用数据集的考虑
- 社会影响: 希望该数据集有助于加泰罗尼亚语语言模型的发展。
- 其他已知限制: 无。
数据集管理
- 数据集管理者: 巴塞罗那超级计算中心文本挖掘单元 (bsc-temu@bsc.es)
- 资助: 加泰罗尼亚政府数字政策和领土部门的项目AINA框架内资助。
许可和引用信息
- 许可: 遵循Attribution-ShareAlike 4.0国际许可。
- 引用: 参考文献格式详见数据集详情。



