ShynBui/Vietnamese_Reading_Comprehension_Dataset

Name: ShynBui/Vietnamese_Reading_Comprehension_Dataset
Creator: ShynBui
Published: 2024-07-12 10:48:00
License: 暂无描述

Hugging Face2024-07-12 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/ShynBui/Vietnamese_Reading_Comprehension_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从互联网资源、SQuAD数据集和维基百科等收集的，经过Google翻译和VnCoreNLP分词处理后翻译成越南语。数据集包含四个主要字段：`question`（问题）、`context`（文本段落）、`answer`（答案）和`answer_start`（答案在文本中的起始位置）。数据集分为训练集和测试集，适用于问答、阅读理解和自然语言处理任务。

This dataset is collected from internet sources, SQuAD dataset, wiki, etc. It has been translated into Vietnamese using google translate and word segmented using VnCoreNLP. The dataset includes the following columns: `question`, `context`, `answer`, and `answer_start`. The dataset is divided into train/test sections and can be used for question-answering, reading-comprehension, and natural-language-processing tasks.

提供机构：

ShynBui

原始信息汇总

数据集概述

基本信息

语言: 越南语
许可证: MIT
数据量: 10K<n<100K
任务类别:
- 文本生成
- 问答
- 文本分类

数据结构

特征:
- context: 文本段落，类型为字符串
- question: 与文本内容相关的问题，类型为字符串
- answer: 基于文本内容的答案，类型为字符串
- answer_start: 答案在文本中的起始位置，类型为整数

数据集划分

训练集:
- 样本数: 48460
- 字节数: 54478998
测试集:
- 样本数: 5385
- 字节数: 6041628

数据集大小

下载大小: 33267124 字节
数据集总大小: 60520626 字节

配置

默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*

任务类别

问答
阅读理解
自然语言处理

许可证

MIT License

联系方式

邮箱: buitienphat2462002@gmail.com

5,000+

优质数据集

54 个

任务类型

进入经典数据集