atutej/xstorycloze_custom
收藏Hugging Face2024-03-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/atutej/xstorycloze_custom
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: tr
features:
- name: story_id
dtype: string
- name: input_sentence_1
dtype: string
- name: input_sentence_2
dtype: string
- name: input_sentence_3
dtype: string
- name: input_sentence_4
dtype: string
- name: sentence_quiz1
dtype: string
- name: sentence_quiz2
dtype: string
- name: answer_right_ending
dtype: int32
splits:
- name: train
num_bytes: 124505
num_examples: 360
download_size: 94254
dataset_size: 124505
- config_name: transliteration-hi
features:
- name: story_id
dtype: string
- name: input_sentence_1
dtype: string
- name: input_sentence_2
dtype: string
- name: input_sentence_3
dtype: string
- name: input_sentence_4
dtype: string
- name: sentence_quiz1
dtype: string
- name: sentence_quiz2
dtype: string
- name: answer_right_ending
dtype: int32
splits:
- name: eval
num_bytes: 525229
num_examples: 1511
download_size: 376700
dataset_size: 525229
configs:
- config_name: tr
data_files:
- split: train
path: tr/train-*
- config_name: transliteration-hi
data_files:
- split: eval
path: transliteration-hi/eval-*
---
数据集信息:
1. 配置名称:tr
特征字段如下:
- 故事ID(story_id):字符串类型
- 输入语句1(input_sentence_1):字符串类型
- 输入语句2(input_sentence_2):字符串类型
- 输入语句3(input_sentence_3):字符串类型
- 输入语句4(input_sentence_4):字符串类型
- 测验语句1(sentence_quiz1):字符串类型
- 测验语句2(sentence_quiz2):字符串类型
- 正确结尾答案(answer_right_ending):32位整数类型
数据集划分:
- 训练集(train):字节占用量124505,样本数量360
下载大小为94254,数据集总大小为124505。
2. 配置名称:transliteration-hi(音译-印地语)
特征字段与上述配置一致:
- 故事ID(story_id):字符串类型
- 输入语句1(input_sentence_1):字符串类型
- 输入语句2(input_sentence_2):字符串类型
- 输入语句3(input_sentence_3):字符串类型
- 输入语句4(input_sentence_4):字符串类型
- 测验语句1(sentence_quiz1):字符串类型
- 测验语句2(sentence_quiz2):字符串类型
- 正确结尾答案(answer_right_ending):32位整数类型
数据集划分:
- 评估集(eval):字节占用量525229,样本数量1511
下载大小为376700,数据集总大小为525229。
配置项详情:
- 配置名称tr:对应数据文件为训练集(train),文件路径为 tr/train-*
- 配置名称transliteration-hi(音译-印地语):对应数据文件为评估集(eval),文件路径为 transliteration-hi/eval-*
提供机构:
atutej
原始信息汇总
数据集概述
配置名称:tr
- 特征信息:
story_id: 字符串类型input_sentence_1: 字符串类型input_sentence_2: 字符串类型input_sentence_3: 字符串类型input_sentence_4: 字符串类型sentence_quiz1: 字符串类型sentence_quiz2: 字符串类型answer_right_ending: 32位整数类型
- 数据分割:
train: 包含360个样本,占用124505字节
- 数据大小:
- 下载大小:94254字节
- 数据集大小:124505字节
- 数据文件:
train: 路径为tr/train-*
配置名称:transliteration-hi
- 特征信息:
story_id: 字符串类型input_sentence_1: 字符串类型input_sentence_2: 字符串类型input_sentence_3: 字符串类型input_sentence_4: 字符串类型sentence_quiz1: 字符串类型sentence_quiz2: 字符串类型answer_right_ending: 32位整数类型
- 数据分割:
eval: 包含1511个样本,占用525229字节
- 数据大小:
- 下载大小:376700字节
- 数据集大小:525229字节
- 数据文件:
eval: 路径为transliteration-hi/eval-*



