Patt/MultiRC_TH_drop
收藏Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Patt/MultiRC_TH_drop
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是multirc数据集的泰语翻译版本,使用了谷歌翻译,并通过Multilingual Universal Sentence Encoder计算泰语翻译的得分。得分根据原文与翻译文本的长度进行惩罚,任何得分低于0.66的行被删除。
该数据集是multirc数据集的泰语翻译版本,使用了谷歌翻译,并通过Multilingual Universal Sentence Encoder计算泰语翻译的得分。得分根据原文与翻译文本的长度进行惩罚,任何得分低于0.66的行被删除。
提供机构:
Patt
原始信息汇总
数据集概述
任务类别
- 文本分类
语言
- 英语(en)
- 泰语(th)
数据集信息
-
特征(Features):
paragraph:字符串类型paragraph_TH:字符串类型question:字符串类型question_TH:字符串类型answer:字符串类型answer_TH:字符串类型idx:结构类型,包含answer(int64)、paragraph(int64)、question(int64)label:int64类型score_paragraph:float64类型score_question:float64类型score_answer:float64类型
-
分割(Splits):
train:23520个样本,占用133061823字节validation:4212个样本,占用22534453字节test:8272个样本,占用42757726字节
-
下载大小:5756232字节
-
数据集大小:198354002字节
许可证
- cc-by-sa-4.0



