somosnlp/dataset-cultura-guarani_corpus-it

Name: somosnlp/dataset-cultura-guarani_corpus-it
Creator: somosnlp
Published: 2024-05-29 16:41:00
License: 暂无描述

Hugging Face2024-05-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/dataset-cultura-guarani_corpus-it

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在提供一个高质量的问答语料库，用于自然语言处理应用，特别是与瓜拉尼文化相关的文本理解和回答生成。数据集基于书籍《Ñande Ypykuéra》创建，包含1000个问答对，每个章节的问答数量与章节长度成比例。问答对由GPT-4生成，并由多位专家审核和修正。

提供机构：

somosnlp

原始信息汇总

数据集卡片 dataset-cultura-guarani_corpus-it

数据集描述

数据集信息

配置名称: default
特征:
- id: 数据类型为 int64
- referencias: 数据类型为 string
- preguntas: 数据类型为 string
- respuestas: 数据类型为 string
- etiquetas: 数据类型为 string
- pais: 数据类型为 string
- idioma: 数据类型为 string
- periodo: 数据类型为 string
拆分:
- test: 字节数为 47162，示例数为 125
- train: 字节数为 511699，示例数为 1373
下载大小: 192461 字节
数据集大小: 558861 字节

配置

配置名称: default
数据文件:
- test: 路径为 data/test-*
- train: 路径为 data/train-*

数据集目标

拥有一个包含 1000 个高质量问题和答案的语料库。该书包含 26 个章节，每个章节具有不同的文本长度。因此，每个章节的问题和答案数量根据文本长度按比例提取。除了简单/直接的问题和答案外，还添加了摘要、提取观点和角色，以促进阅读理解和批判性分析。

数据集来源

数据集来源于 Narciso R. Colmán 的 "Ñande Ypykuéra"。

数据集用途

直接使用

该数据集旨在用于需要文本理解和生成上下文相关答案的自然语言处理应用，特别是在瓜拉尼文化领域。

超出范围的使用

该数据集不适用于与瓜拉尼文化相关的语言学研究。

数据集结构

数据集结构化地组织了与参考书籍主题和章节对齐的问题和答案。

数据集创建

创建理由

该语料库旨在促进瓜拉尼文化的教育和保护，使用具有代表性的文本。

源数据

数据收集和处理

源数据生产者

问题和答案由 GPT-4 生成。

标注过程

生成的问题和答案由每个审阅者进行验证和修正。

标注者

标注者包括：

Daniel Cabrera
Leticia Bogado
Alberto Benítez
Emanuel Pinasco

个人和敏感信息

该数据集中不包含个人或敏感信息。

偏见、风险和限制

由于数据集仅集中于 "Ñande Ypykuéra" 一书，可能存在有限的视角。建议与其他文本结合使用，以获得更广泛的瓜拉尼文化视角。

建议

为了有效使用该数据集，建议将其集成到寻求推广瓜拉尼文化知识的教学系统中，应用现代自然语言处理技术。

许可证

CC BY-SA 4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集