five

ShynBui/Vietnamese_Reading_Comprehension_Dataset

收藏
Hugging Face2024-07-12 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/ShynBui/Vietnamese_Reading_Comprehension_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从互联网资源、SQuAD数据集和维基百科等收集的,经过Google翻译和VnCoreNLP分词处理后翻译成越南语。数据集包含四个主要字段:`question`(问题)、`context`(文本段落)、`answer`(答案)和`answer_start`(答案在文本中的起始位置)。数据集分为训练集和测试集,适用于问答、阅读理解和自然语言处理任务。

This dataset is collected from internet sources, SQuAD dataset, wiki, etc. It has been translated into Vietnamese using google translate and word segmented using VnCoreNLP. The dataset includes the following columns: `question`, `context`, `answer`, and `answer_start`. The dataset is divided into train/test sections and can be used for question-answering, reading-comprehension, and natural-language-processing tasks.
提供机构:
ShynBui
原始信息汇总

数据集概述

基本信息

  • 语言: 越南语
  • 许可证: MIT
  • 数据量: 10K<n<100K
  • 任务类别:
    • 文本生成
    • 问答
    • 文本分类

数据结构

  • 特征:
    • context: 文本段落,类型为字符串
    • question: 与文本内容相关的问题,类型为字符串
    • answer: 基于文本内容的答案,类型为字符串
    • answer_start: 答案在文本中的起始位置,类型为整数

数据集划分

  • 训练集:
    • 样本数: 48460
    • 字节数: 54478998
  • 测试集:
    • 样本数: 5385
    • 字节数: 6041628

数据集大小

  • 下载大小: 33267124 字节
  • 数据集总大小: 60520626 字节

配置

  • 默认配置:
    • 训练集路径: data/train-*
    • 测试集路径: data/test-*

任务类别

  • 问答
  • 阅读理解
  • 自然语言处理

许可证

  • MIT License

联系方式

  • 邮箱: buitienphat2462002@gmail.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作