projecte-aina/vilaquad

收藏

Hugging Face2024-09-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/vilaquad

下载链接

链接失效反馈

官方服务：

资源简介：

VilaQuAD是一个用于加泰罗尼亚语的抽取式问答数据集，包含2095篇来自VilaWeb新闻网站的加泰罗尼亚语新闻文章，每篇文章有1到5个问题。该数据集旨在支持加泰罗尼亚语这一资源较少语言的语言模型发展。数据集的结构包括文章的标题、上下文、问题及答案，数据被分为训练集、开发集和测试集。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集名称

名称: VilaQuAD
类型: 抽取式问答数据集

语言

语言: 加泰罗尼亚语 (ca-ES)

许可

许可: CC-BY-SA-4.0

数据集大小

大小: 1K<n<10K

数据来源

来源: VilaWeb

任务类型

任务类型: 抽取式问答 (extractive-qa)

数据集结构

数据实例: 每个实例包含ID、标题、上下文、问题和答案。
数据字段: 包括ID、标题、上下文、问题和答案列表，其中答案包含文本和起始偏移。
数据分割: 训练集、验证集和测试集。

数据集创建

创建理由: 为加泰罗尼亚语这种低资源语言的语言模型发展做出贡献。
源数据收集和标准化: 从VilaWeb随机选择2095篇文章。
注释过程: 委托创建1至5个问题，遵循SQuAD 1.0的指导方针。
注释者: 由专业公司雇佣的母语为加泰罗尼亚语的团队进行。

使用数据集的考虑

社会影响: 希望该数据集有助于加泰罗尼亚语语言模型的发展。
其他已知限制: 无。

数据集管理

数据集管理者: 巴塞罗那超级计算中心文本挖掘单元 (bsc-temu@bsc.es)
资助: 加泰罗尼亚政府数字政策和领土部门的项目AINA框架内资助。

许可和引用信息

许可: 遵循Attribution-ShareAlike 4.0国际许可。
引用: 参考文献格式详见数据集详情。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作