juletxara/xstory_cloze_mt
收藏Hugging Face2023-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/juletxara/xstory_cloze_mt
下载链接
链接失效反馈官方服务:
资源简介:
XStoryCloze数据集是一个单语言(英语)数据集,包含多个不同模型大小的配置。每个配置包括故事ID、输入句子、句子测验1、句子测验2和正确答案等特征。数据集分为多种语言的分割,每个分割有特定的字节数和示例数。
XStoryCloze数据集是一个单语言(英语)数据集,包含多个不同模型大小的配置。每个配置包括故事ID、输入句子、句子测验1、句子测验2和正确答案等特征。数据集分为多种语言的分割,每个分割有特定的字节数和示例数。
提供机构:
juletxara
原始信息汇总
数据集概述
基本信息
- 数据集名称: XStoryCloze
- 语言: 英语(en)
- 语言创建者: 发现(found)和专家生成(expert-generated)
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语(monolingual)
- 大小类别: 1K<n<10K
- 源数据集: 扩展自story_cloze
- 任务类别: 其他(other)
数据集结构
- 配置名称: nllb-200-distilled-600M, nllb-200-distilled-1.3B, nllb-200-1.3B, nllb-200-3.3B, xglm-564M, xglm-1.7B, xglm-2.9B, xglm-4.5B, xglm-7.5B, bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, llama-7B, llama-13B, llama-30B, RedPajama-INCITE-Base-3B-v1, RedPajama-INCITE-7B-Base, open_llama_3b
- 特征:
- story_id: 字符串(string)
- input_sentence_1: 字符串(string)
- input_sentence_2: 字符串(string)
- input_sentence_3: 字符串(string)
- input_sentence_4: 字符串(string)
- sentence_quiz1: 字符串(string)
- sentence_quiz2: 字符串(string)
- answer_right_ending: 整数(int32)
数据集大小
- 下载大小: 不同配置下的下载大小不同,例如:
- nllb-200-distilled-600M: 4619083
- nllb-200-distilled-1.3B: 4607136
- nllb-200-1.3B: 4579397
- ...
- 数据集大小: 不同配置下的数据集大小不同,例如:
- nllb-200-distilled-600M: 4964534
- nllb-200-distilled-1.3B: 4953108
- nllb-200-1.3B: 4925286
- ...
数据集分割
- 分割名称: ru, zh, es, ar, hi, id, te, sw, eu, my
- 示例数量: 每个分割包含1511个示例
- 字节数: 每个分割的字节数不同,例如:
- ru: 492764(nllb-200-distilled-600M)
- zh: 500346(nllb-200-distilled-600M)
- es: 495103(nllb-200-distilled-600M)
- ...
总结
XStoryCloze数据集是一个包含英语文本的数据集,用于特定的任务类别(其他)。数据集包含多个配置,每个配置具有相同的特征结构,但大小和下载大小不同。数据集的许可证为CC-BY-SA-4.0,适用于单语环境。



