boun-tabi/squad_tr
收藏Hugging Face2025-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/boun-tabi/squad_tr
下载链接
链接失效反馈官方服务:
资源简介:
SQuAD-TR是SQuAD2.0数据集的土耳其语机器翻译版本,使用了Amazon Translate进行翻译。数据集包含默认、排除和开放问答三种配置,每种配置都有不同的数据字段和分割。数据集主要用于问答系统,特别是低资源语言的开放领域问答和抽取式问答任务。
SQuAD-TR是SQuAD2.0数据集的土耳其语机器翻译版本,使用了Amazon Translate进行翻译。数据集包含默认、排除和开放问答三种配置,每种配置都有不同的数据字段和分割。数据集主要用于问答系统,特别是低资源语言的开放领域问答和抽取式问答任务。
提供机构:
boun-tabi
原始信息汇总
数据集概述
名称: SQuAD-TR
语言: 土耳其语 (tr)
许可证: CC BY-NC-ND 4.0
创建方式: 机器生成
多语言性: 单语
大小: 100K<n<1M
源数据集: 扩展自SQuAD
任务类别: 问答
任务ID:
- open-domain-qa
- extractive-qa
论文代码ID: squad-tr
数据集结构
数据实例
- id: 字符串
- title: 字符串
- context: 字符串
- question: 字符串
- answers: 字典
- text: 字符串
- answer_start: 整数(部分配置中不包含)
数据分割
- 训练集: 104,791个实例,95795325字节
- 验证集: 8,291个实例,8287109字节
数据集创建
- 翻译工具: Amazon Translate
- 处理步骤: 自动翻译后,重新映射答案起始位置,并通过自动后处理步骤确定答案起始位置。
- 排除情况: 在翻译后未找到精确或近似匹配的问答对被排除。
数据集配置
- 默认配置: 包含所有处理后的问答对。
- excluded配置: 包含被排除的问答对,不包含
answer_start字段。 - openqa配置: 专为OpenQA设置,仅包含问答对及其上下文,不包含
answer_start字段。
数据集统计
- 默认配置:
- 训练集: 104,791个实例
- 验证集: 8,291个实例
- excluded配置:
- 训练集: 25,528个实例
- 验证集: 3,582个实例
- openqa配置:
- 训练集: 130,319个实例
- 验证集: 11,873个实例



