five

mikaberidze/xstory-cloze-ftp

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mikaberidze/xstory-cloze-ftp
下载链接
链接失效反馈
官方服务:
资源简介:
XStoryCloze-FTP是一个多语言数据集,支持11种语言,包括阿拉伯语、英语、西班牙语、巴斯克语、印地语、印尼语、缅甸语、俄语、斯瓦希里语、泰卢固语和中文。该数据集采用首词预测(FTP)的方式,对juletxara/xstory_cloze数据集进行了重新构建。每个例子都是一个以Answer: 结尾的文本序列,包含四个句子和两个可能的结尾,模型需要预测正确的答案。数据集分为训练集和评估集,每个语言大约有360个训练例子和1510个评估例子。数据集的任务类别包括多项选择和文本生成,适用于多语言模型的小样本学习研究。

XStoryCloze-FTP is a multilingual dataset supporting 11 languages, including Arabic, English, Spanish, Basque, Hindi, Indonesian, Burmese, Russian, Swahili, Telugu, and Chinese. The dataset is a first-token-prediction (FTP) reframing of the juletxara/xstory_cloze dataset. Each example is a single text sequence ending with Answer: , containing four sentences and two possible endings, and the model is required to predict the correct answer. The dataset is divided into training and evaluation sets, with approximately 360 training examples and 1510 evaluation examples per language. The task categories include multiple-choice and text-generation, making it suitable for few-shot learning research with multilingual models.
提供机构:
mikaberidze
搜集汇总
数据集介绍
main_image_url
构建方式
XStoryCloze-FTP数据集是对原始XStoryCloze数据集的重新构建,通过首次标记预测范式将多语言常识推理任务转化为单序列文本生成问题。在构建过程中,每个样本包含四句上下文与两个候选结尾,候选结尾被随机分配至A、B、C、D四个标签中的两个,以此模拟四选一格式并缓解标签位置偏差。所有样本以“Answer: ”结尾,便于模型直接预测单个答案标记。数据集沿用了上游的划分方式,每个语言包含约360条训练样本与1510条评估样本。
特点
该数据集跨越阿拉伯语、英语、西班牙语、巴斯克语、印地语、印度尼西亚语、缅甸语、俄语、斯瓦希里语、泰卢固语和中文等11种语言,展现了丰富的语言多样性。其设计的核心创新在于将传统多项选择任务转化为首次标记预测,显著简化了评估流程。通过随机采样四选二标签策略,在保持2选项本质的同时对齐了贝尔贝尔数据集的4选项格式,有助于跨数据集迁移学习。数据集采用统一的问题ID、文本和答案标签模式,便于标准化处理。
使用方法
研究者可直接通过HuggingFace Datasets库加载该数据集,按语言配置(如'ar'、'en')选择指定子集。使用时可调用format_ftp_example函数生成格式化样本,每个样本的text字段包含标准化的上下文与选项序列,answer_label字段提供正确答案的字母标签。模型训练时可直接优化下一个标记的预测损失,评估时通过对比生成的首个标记与答案标签计算准确率。数据集兼容多项选择与文本生成两大任务类别,支持灵活的实验设计。
背景与挑战
背景概述
XStoryCloze-FTP数据集诞生于多语言自然语言理解与常识推理研究的前沿交汇处,由Meta AI团队基于XGLM项目中的多语言故事完形填空任务于2021年构建。该数据集覆盖阿拉伯语、英语、西班牙语等11种语言,旨在通过首词预测范式重新诠释经典的Story Cloze任务,为核心研究问题——如何评估并提升多语言语言模型在跨语言情境下的常识推理能力——提供了标准化评估基准。作为XStoryCloze的变体,其影响力体现在推动了多语言零样本与少样本学习的发展,为多语言模型的横向比较与能力诊断贡献了简洁有效的测试资源。
当前挑战
XStoryCloze-FTP数据集主要面临两大挑战。首先,针对领域核心问题,现有模型在跨语言常识推理中时常暴露出对文化特定知识及故事隐含逻辑的把握不足,尤其是低资源语言上的性能瓶颈显著,这限制了模型在多语场景下的泛化能力。其次,在构建过程中,数据集的原始设计包含独特的标签采样机制,即从四个字母中随机选取两个作为答案标签,此举旨在减少字母位置偏差,却引入了随机性,可能导致模型评估结果的不稳定与复现困难,增加了基准测试的复杂性。
常用场景
经典使用场景
XStoryCloze-FTP数据集的核心设计在于将多语言常识故事完形填空任务转化为首词预测(First-Token Prediction)范式。它将每个样本组织成一段连续文本,并在结尾处添加固定格式的“Answer: ”提示符,使模型仅需预测正确答案对应的单个词元(如“A”或“B”)。这种重构方式特别适合评估和微调自回归语言模型(如GPT系列、XGLM)的少样本学习与零样本推理能力,是检验模型在跨语言情境下进行常识推断和上下文理解的经典基准。
实际应用
在实际应用中,XStoryCloze-FTP可直接用于评估和比较不同多语言预训练模型(如mBERT、XLM-R、XGLM)在跨语言叙事理解任务上的表现。开发者可利用该数据集检验模型在资源匮乏语言上的推理鲁棒性,识别模型在处理文化特定或语序差异较大的语言时的薄弱环节。此外,其简洁的评估格式便于集成到自动化评测管线中,为多语言对话系统、智能辅助写作和跨语言内容理解等产品的迭代优化提供数据支撑。
衍生相关工作
XStoryCloze-FTP的提出衍生了一系列重要工作。上游的XStoryCloze数据集本身被用于训练和评估XGLM等模型的多语言少样本学习能力,其构建方法借鉴了原始Story Cloze测试。基于该数据集的FTP重构方案启发了后续研究探索更高效的提示词设计(如Belebele格式对齐),并推动了针对首词预测范式的理论分析。此外,该数据集在跨语言常识推理领域成为多个评估榜单(如XTREME、XGLUE)的重要组成,催生了关于多语言模型推理偏差和公平性的系统性研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作