juletxara/xstory_cloze

Name: juletxara/xstory_cloze
Creator: juletxara
Published: 2023-05-21 16:04:36
License: 暂无描述

Hugging Face2023-05-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/juletxara/xstory_cloze

下载链接

链接失效反馈

官方服务：

资源简介：

XStoryCloze数据集包含由Meta AI发布的专业翻译版本的英语StoryCloze数据集，涵盖10种非英语语言。该数据集旨在评估多语言语言模型在零样本和少样本学习能力。每个语言版本的数据集都分为训练集和测试集，数据结构包括故事句子及正确结尾等字段。

The XStoryCloze dataset includes the professionally translated English StoryCloze dataset released by Meta AI, covering 10 non-English languages. It is designed to evaluate the zero-shot and few-shot learning capabilities of multilingual language models. Each language-specific version of the dataset is split into a training set and a test set, with its data structure containing fields such as story sentences and correct endings.

提供机构：

juletxara

原始信息汇总

数据集概述

数据集名称: XStoryCloze

数据集描述: XStoryCloze 包含由Meta AI发布的专业翻译版本的英语StoryCloze数据集（2016年春季版本）到10种非英语语言。

支持任务: 常识推理

语言: 英语（en）、俄语（ru）、简体中文（zh）、西班牙语（es）、阿拉伯语（ar）、印地语（hi）、印度尼西亚语（id）、泰卢固语（te）、斯瓦希里语（sw）、巴斯克语（eu）、缅甸语（my）

许可证: CC BY-SA 4.0

多语言性: 多语言

数据集大小: 1K<n<10K

数据集结构

数据实例:

story_id: 故事ID，数据类型为字符串。
input_sentence_1 到 input_sentence_4: 故事的四个陈述，数据类型为字符串。
sentence_quiz1 和 sentence_quiz2: 故事的两个可能的延续，数据类型为字符串。
answer_right_ending: 正确的可能结局，数据类型为int32。

数据分割:

每个语言版本的数据集被分为训练集和测试集，分别包含360和1511个示例。

数据集创建

语言创建者: 发现（found）和专家生成（expert-generated）

注释创建者: 发现（found）

源数据集: 扩展自story_cloze

数据集使用注意事项

许可证: 数据集根据CC BY-SA 4.0许可证开放源代码。

引用信息:

@article{DBLP:journals/corr/abs-2112-10668, author = {Xi Victoria Lin and Todor Mihaylov and Mikel Artetxe and Tianlu Wang and Shuohui Chen and Daniel Simig and Myle Ott and Naman Goyal and Shruti Bhosale and Jingfei Du and Ramakanth Pasunuru and Sam Shleifer and Punit Singh Koura and Vishrav Chaudhary and Brian OHoro and Jeff Wang and Luke Zettlemoyer and Zornitsa Kozareva and Mona T. Diab and Veselin Stoyanov and Xian Li}, title = {Few-shot Learning with Multilingual Language Models}, journal = {CoRR}, volume = {abs/2112.10668}, year = {2021}, url = {https://arxiv.org/abs/2112.10668}, eprinttype = {arXiv}, eprint = {2112.10668}, timestamp = {Tue, 04 Jan 2022 15:59:27 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

XStoryCloze数据集由Meta AI发布，它包含了从英文版StoryCloze数据集（2016年春季版本）翻译而来的10种非英语语言的版本。数据集分为训练集和评估集，每种语言的训练集包含360个示例，评估集包含1510个示例。数据集中的每个实例包括故事的前四句话、两个可能的结尾和一个正确结尾的标识。

特点

XStoryCloze数据集的特点在于其多语言性，支持包括英语、俄语、中文、西班牙语、阿拉伯语、印地语、印度尼西亚语、泰卢固语、斯瓦希里语、巴斯克语和马来语在内的11种语言。这使得该数据集非常适合用于评估多语言语言模型在零样本和少样本学习场景下的能力。

使用方法

使用XStoryCloze数据集时，研究者可以将其用于训练和评估多语言语言模型，特别是针对零样本和少样本学习任务。数据集的每个实例包含故事的前四句话、两个可能的结尾和一个正确结尾的标识，可以用于训练模型以预测故事的最合适的结尾。

背景与挑战

背景概述

在人工智能领域，多语言语言模型的研究对于推动自然语言处理技术的发展具有重要意义。为了评估和提升多语言语言模型在少样本和零样本学习场景下的能力，Meta AI发布了XStoryCloze数据集。该数据集由英文StoryCloze数据集（2016年春季版本）的专业翻译版本组成，涵盖了10种非英语语言，包括俄语、中文（简体）、西班牙语（拉丁美洲）、阿拉伯语、印地语、印尼语、泰卢固语、斯瓦希里语、巴斯克语和马来语。XStoryCloze数据集的发布，为研究人员提供了宝贵的资源，有助于推动多语言自然语言处理技术的发展。

当前挑战

尽管XStoryCloze数据集为多语言语言模型的研究提供了重要资源，但仍面临一些挑战。首先，数据集的构建过程中需要解决跨语言翻译的一致性和准确性问题。其次，由于数据集的规模相对较小，可能存在数据分布不均的问题，这对少样本和零样本学习能力的评估和提升提出了挑战。此外，数据集可能存在一定的偏见，这需要研究人员在使用过程中进行深入分析和处理。

常用场景

经典使用场景

XStoryCloze数据集主要用于评估多语言语言模型在零样本和少样本学习任务中的表现。数据集包含10种非英语语言的故事文本，每个故事都配有两个可能的结尾，其中一个为正确答案。研究人员可以利用该数据集训练和测试模型，以评估模型在理解和生成故事结尾方面的能力。

解决学术问题

XStoryCloze数据集为多语言语言模型的研究提供了宝贵的资源。通过使用该数据集，研究人员可以探索模型在不同语言和文化背景下理解和生成故事结尾的能力，从而推动多语言自然语言处理领域的发展。此外，该数据集还可以用于评估模型的零样本和少样本学习性能，为迁移学习和模型泛化研究提供新的视角。

衍生相关工作

基于XStoryCloze数据集，研究人员可以开展一系列相关的研究工作。例如，可以研究不同语言和文化背景对模型理解和生成故事结尾的影响，探索模型的跨语言迁移学习能力，以及评估模型的少样本和零样本学习性能。此外，还可以研究数据集的构建方法和标注过程，以提高数据集的质量和多样性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集