nguyennghia0902/project02_textming_dataset

Name: nguyennghia0902/project02_textming_dataset
Creator: nguyennghia0902
Published: 2024-05-31 15:44:31
License: 暂无描述

Hugging Face2024-05-31 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/nguyennghia0902/project02_textming_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于越南语问答任务，原始数据来源于Kaggle-CSC15105。数据集包含原始数据、新格式数据和分词后的数据。原始数据包含train和test两个部分，分别有12000和4000行数据，特征包括context和qas。新格式数据也包含train和test两个部分，分别有50046和15994行数据，特征包括id, context, question, answers。分词后的数据同样包含train和test两个部分，特征包括id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions。

提供机构：

nguyennghia0902

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答
语言: 越南语

数据集详情

名称: Project 02 (Vietnamese Question Answering) - Text Mining and Application - FIT@HCMUS - 2024
原始数据集: Kaggle-CSC15105

数据集结构

原始数据

训练集:
- 特征: [context, qas]
- 行数: 12000
测试集:
- 特征: [context, qas]
- 行数: 4000

新格式数据

训练集:
- 特征: [id, context, question, answers]
- 行数: 50046
测试集:
- 特征: [id, context, question, answers]
- 行数: 15994

分词后数据

训练集:
- 特征: [id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions]
- 行数: 50046
测试集:
- 特征: [id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions]
- 行数: 15994

5,000+

优质数据集

54 个

任务类型

进入经典数据集