five

juletxara/xstory_cloze_mt

收藏
Hugging Face2023-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/juletxara/xstory_cloze_mt
下载链接
链接失效反馈
官方服务:
资源简介:
XStoryCloze数据集是一个单语言(英语)数据集,包含多个不同模型大小的配置。每个配置包括故事ID、输入句子、句子测验1、句子测验2和正确答案等特征。数据集分为多种语言的分割,每个分割有特定的字节数和示例数。

XStoryCloze数据集是一个单语言(英语)数据集,包含多个不同模型大小的配置。每个配置包括故事ID、输入句子、句子测验1、句子测验2和正确答案等特征。数据集分为多种语言的分割,每个分割有特定的字节数和示例数。
提供机构:
juletxara
原始信息汇总

数据集概述

基本信息

  • 数据集名称: XStoryCloze
  • 语言: 英语(en)
  • 语言创建者: 发现(found)和专家生成(expert-generated)
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语(monolingual)
  • 大小类别: 1K<n<10K
  • 源数据集: 扩展自story_cloze
  • 任务类别: 其他(other)

数据集结构

  • 配置名称: nllb-200-distilled-600M, nllb-200-distilled-1.3B, nllb-200-1.3B, nllb-200-3.3B, xglm-564M, xglm-1.7B, xglm-2.9B, xglm-4.5B, xglm-7.5B, bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, llama-7B, llama-13B, llama-30B, RedPajama-INCITE-Base-3B-v1, RedPajama-INCITE-7B-Base, open_llama_3b
  • 特征:
    • story_id: 字符串(string)
    • input_sentence_1: 字符串(string)
    • input_sentence_2: 字符串(string)
    • input_sentence_3: 字符串(string)
    • input_sentence_4: 字符串(string)
    • sentence_quiz1: 字符串(string)
    • sentence_quiz2: 字符串(string)
    • answer_right_ending: 整数(int32)

数据集大小

  • 下载大小: 不同配置下的下载大小不同,例如:
    • nllb-200-distilled-600M: 4619083
    • nllb-200-distilled-1.3B: 4607136
    • nllb-200-1.3B: 4579397
    • ...
  • 数据集大小: 不同配置下的数据集大小不同,例如:
    • nllb-200-distilled-600M: 4964534
    • nllb-200-distilled-1.3B: 4953108
    • nllb-200-1.3B: 4925286
    • ...

数据集分割

  • 分割名称: ru, zh, es, ar, hi, id, te, sw, eu, my
  • 示例数量: 每个分割包含1511个示例
  • 字节数: 每个分割的字节数不同,例如:
    • ru: 492764(nllb-200-distilled-600M)
    • zh: 500346(nllb-200-distilled-600M)
    • es: 495103(nllb-200-distilled-600M)
    • ...

总结

XStoryCloze数据集是一个包含英语文本的数据集,用于特定的任务类别(其他)。数据集包含多个配置,每个配置具有相同的特征结构,但大小和下载大小不同。数据集的许可证为CC-BY-SA-4.0,适用于单语环境。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作