Patt/ReCoRD_TH_drop
收藏Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Patt/ReCoRD_TH_drop
下载链接
链接失效反馈官方服务:
资源简介:
ReCoRD_TH_drop数据集是ReCoRD数据集的泰语翻译版本,主要用于文本分类任务。数据集包含英语和泰语文本,通过Google翻译和Multilingual Universal Sentence Encoder计算得分,筛选出高质量的翻译内容。数据集分为训练集和验证集,提供了详细的统计信息。
ReCoRD_TH_drop数据集是ReCoRD数据集的泰语翻译版本,主要用于文本分类任务。数据集包含英语和泰语文本,通过Google翻译和Multilingual Universal Sentence Encoder计算得分,筛选出高质量的翻译内容。数据集分为训练集和验证集,提供了详细的统计信息。
提供机构:
Patt
原始信息汇总
数据集概述
基本信息
- 任务类别:文本分类
- 语言:英语(en)、泰语(th)
数据集特征
- passage:字符串类型
- passage_TH:字符串类型
- query:字符串类型
- query_TH:字符串类型
- entities:字符串序列
- entities_TH:字符串序列
- entity_spans:结构类型,包含
start(整数序列)、end(整数序列)和text(字符串序列) - answers:字符串序列
- answers_TH:字符串序列
- idx:结构类型,包含
passage(整数)和query(整数) - score_passage:浮点数类型
- score_query:浮点数类型
- score_entities:浮点数类型
- score_answers:浮点数类型
数据集分割
- 训练集:57811个样本,大小为281547282字节
- 验证集:6676个样本,大小为32258456字节
数据集大小
- 下载大小:112999233字节
- 数据集总大小:313805738字节
许可证
- 许可证:cc-by-sa-4.0



