five

nguyennghia0902/project02_textming_dataset

收藏
Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nguyennghia0902/project02_textming_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于越南语问答任务,原始数据来源于Kaggle-CSC15105。数据集包含原始数据、新格式数据和分词后的数据。原始数据包含train和test两个部分,分别有12000和4000行数据,特征包括context和qas。新格式数据也包含train和test两个部分,分别有50046和15994行数据,特征包括id, context, question, answers。分词后的数据同样包含train和test两个部分,特征包括id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions。
提供机构:
nguyennghia0902
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 问答
  • 语言: 越南语

数据集详情

  • 名称: Project 02 (Vietnamese Question Answering) - Text Mining and Application - FIT@HCMUS - 2024
  • 原始数据集: Kaggle-CSC15105

数据集结构

原始数据

  • 训练集:
    • 特征: [context, qas]
    • 行数: 12000
  • 测试集:
    • 特征: [context, qas]
    • 行数: 4000

新格式数据

  • 训练集:
    • 特征: [id, context, question, answers]
    • 行数: 50046
  • 测试集:
    • 特征: [id, context, question, answers]
    • 行数: 15994

分词后数据

  • 训练集:
    • 特征: [id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions]
    • 行数: 50046
  • 测试集:
    • 特征: [id, context, question, answers, input_ids, token_type_ids, attention_mask, start_positions, end_positions]
    • 行数: 15994
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作