nguyennghia0902/project02_textming_dataset
收藏Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nguyennghia0902/project02_textming_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于越南语问答任务,原始数据来源于Kaggle-CSC15105。数据集包含原始数据、新格式数据和分词后的数据。原始数据包含train和test两个部分,分别有12000和4000行数据,特征包括context和qas。新格式数据也包含train和test两个部分,分别有50046和15994行数据,特征包括id, context, question, answers。分词后的数据同样包含train和test两个部分,特征包括id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions。
提供机构:
nguyennghia0902
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 语言: 越南语
数据集详情
- 名称: Project 02 (Vietnamese Question Answering) - Text Mining and Application - FIT@HCMUS - 2024
- 原始数据集: Kaggle-CSC15105
数据集结构
原始数据
- 训练集:
- 特征: [context, qas]
- 行数: 12000
- 测试集:
- 特征: [context, qas]
- 行数: 4000
新格式数据
- 训练集:
- 特征: [id, context, question, answers]
- 行数: 50046
- 测试集:
- 特征: [id, context, question, answers]
- 行数: 15994
分词后数据
- 训练集:
- 特征: [id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions]
- 行数: 50046
- 测试集:
- 特征: [id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions]
- 行数: 15994



