five

boun-tabi/squad_tr

收藏
Hugging Face2025-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/boun-tabi/squad_tr
下载链接
链接失效反馈
官方服务:
资源简介:
SQuAD-TR是SQuAD2.0数据集的土耳其语机器翻译版本,使用了Amazon Translate进行翻译。数据集包含默认、排除和开放问答三种配置,每种配置都有不同的数据字段和分割。数据集主要用于问答系统,特别是低资源语言的开放领域问答和抽取式问答任务。

SQuAD-TR是SQuAD2.0数据集的土耳其语机器翻译版本,使用了Amazon Translate进行翻译。数据集包含默认、排除和开放问答三种配置,每种配置都有不同的数据字段和分割。数据集主要用于问答系统,特别是低资源语言的开放领域问答和抽取式问答任务。
提供机构:
boun-tabi
原始信息汇总

数据集概述

名称: SQuAD-TR

语言: 土耳其语 (tr)

许可证: CC BY-NC-ND 4.0

创建方式: 机器生成

多语言性: 单语

大小: 100K<n<1M

源数据集: 扩展自SQuAD

任务类别: 问答

任务ID:

  • open-domain-qa
  • extractive-qa

论文代码ID: squad-tr

数据集结构

数据实例

  • id: 字符串
  • title: 字符串
  • context: 字符串
  • question: 字符串
  • answers: 字典
    • text: 字符串
    • answer_start: 整数(部分配置中不包含)

数据分割

  • 训练集: 104,791个实例,95795325字节
  • 验证集: 8,291个实例,8287109字节

数据集创建

  • 翻译工具: Amazon Translate
  • 处理步骤: 自动翻译后,重新映射答案起始位置,并通过自动后处理步骤确定答案起始位置。
  • 排除情况: 在翻译后未找到精确或近似匹配的问答对被排除。

数据集配置

  • 默认配置: 包含所有处理后的问答对。
  • excluded配置: 包含被排除的问答对,不包含answer_start字段。
  • openqa配置: 专为OpenQA设置,仅包含问答对及其上下文,不包含answer_start字段。

数据集统计

  • 默认配置:
    • 训练集: 104,791个实例
    • 验证集: 8,291个实例
  • excluded配置:
    • 训练集: 25,528个实例
    • 验证集: 3,582个实例
  • openqa配置:
    • 训练集: 130,319个实例
    • 验证集: 11,873个实例
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作