five

csebuetnlp/squad_bn

收藏
Hugging Face2024-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/csebuetnlp/squad_bn
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个针对孟加拉语的问答(QA)数据集,从SQuAD 2.0和TyDI-QA数据集中提取,并使用最先进的英语到孟加拉语翻译模型进行翻译。该数据集专为开放领域QA和抽取式QA等任务设计,是单语种的,仅包含孟加拉语数据,适用于非商业研究目的,并遵循特定的许可证。
提供机构:
csebuetnlp
原始信息汇总

数据集概述

数据集基本信息

数据集结构

数据实例

数据以JSON格式存储,包含以下字段:

  • title: 字符串类型
  • paragraphs: 包含多个段落,每个段落包含:
    • qas: 包含多个问题答案对,每个问题答案对包含:
      • answers: 包含一个或多个答案,每个答案包含:
        • text: 字符串类型
        • answer_start: 整数类型
      • id: 字符串类型
      • question: 字符串类型
    • context: 字符串类型

数据字段

  • id: 字符串
  • title: 字符串
  • context: 字符串
  • question: 字符串
  • answers: 字典,包含:
    • text: 字符串
    • answer_start: 整数

数据分割

分割 计数
train 127771
validation 2502
test 2504

数据集创建

来源数据

  • 初始数据收集和规范化: 使用英语到孟加拉语的翻译模型翻译SQuAD 2.0数据集。
  • 注释者: 机器生成

注释过程

使用注意事项

  • 许可证信息: 本数据集内容仅限于非商业研究目的使用。

  • 引用信息: 使用本数据集时,请引用以下论文:

    @misc{bhattacharjee2021banglabert, title={BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding}, author={Abhik Bhattacharjee and Tahmid Hasan and Kazi Samin and Md Saiful Islam and M. Sohel Rahman and Anindya Iqbal and Rifat Shahriyar}, year={2021}, eprint={2101.00204}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作