MultiSimV2

Hugging Face2024-10-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MichaelR207/MultiSimV2

下载链接

链接失效反馈

官方服务：

资源简介：

MultiSim基准是一个不断增长的文本简化数据集集合，专注于多种语言的句子简化。目前，该基准涵盖了12种语言。该数据集包括27个资源，每个资源包含复杂和简单句子对，主要支持的任务包括摘要、文本到文本生成和文本生成。数据集的目的是鼓励多语言文本简化研究，并包含各种特征，如原始和简单句子。README文件还提供了数据集结构的信息，包括数据实例、字段和分割。此外，它讨论了数据集的策划理由、源数据、注释以及使用数据时的注意事项，包括潜在的偏见和限制。

创建时间：

2024-10-01

原始信息汇总

MultiSimV2 数据集概述

数据集描述

数据集概要

MultiSimV2 是一个不断增长的文本简化数据集集合，专注于多种语言的句子简化。目前，该基准涵盖了12种语言。

支持的任务

句子简化

使用方法

python from datasets import load_dataset

dataset = load_dataset("MichaelR207/MultiSimV2")

引用

@inproceedings{ryan-etal-2023-revisiting, title = "Revisiting non-{E}nglish Text Simplification: A Unified Multilingual Benchmark", author = "Ryan, Michael and Naous, Tarek and Xu, Wei", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.269", pages = "4898--4927", abstract = "Recent advancements in high-quality, large-scale English resources have pushed the frontier of English Automatic Text Simplification (ATS) research. However, less work has been done on multilingual text simplification due to the lack of a diverse evaluation benchmark that covers complex-simple sentence pairs in many languages. This paper introduces the MultiSim benchmark, a collection of 27 resources in 12 distinct languages containing over 1.7 million complex-simple sentence pairs. This benchmark will encourage research in developing more effective multilingual text simplification models and evaluation metrics. Our experiments using MultiSim with pre-trained multilingual language models reveal exciting performance improvements from multilingual training in non-English settings. We observe strong performance from Russian in zero-shot cross-lingual transfer to low-resource languages. We further show that few-shot prompting with BLOOM-176b achieves comparable quality to reference simplifications outperforming fine-tuned models in most languages. We validate these findings through human evaluation.", }

联系人

语言

英语
法语
俄语
日语
意大利语
丹麦语（需请求）
西班牙语（需请求）
德语
巴西葡萄牙语
斯洛文尼亚语
乌尔都语（需请求）
巴斯克语（需请求）

数据集结构

数据实例

MultiSimV2 包含27个现有数据集：

AdminIT
ASSET
CBST
CLEAR
DSim
Easy Japanese
Easy Japanese Extended
GEOLino
German News
Newsela EN/ES
PaCCSS-IT
PorSimples
RSSE
RuAdapt Encyclopedia
RuAdapt Fairytales
RuAdapt Literature
RuWikiLarge
SIMPITIKI
Simple German
Simplext
SimplifyUR
SloTS
Teacher
Terence
TextComplexityDE
WikiAuto
WikiLargeFR

数据字段

在训练集中，您只会找到 original 和 simple 句子。在验证和测试集中，您可能会找到 simple1, simple2, ... simpleN，因为一个句子可以有多个参考简化（用于SARI和BLEU计算）。

数据分割

数据集被分为训练集、验证集和测试集。

数据集创建

数据来源

数据来自27个现有数据集，这些数据集构成了MultiSimV2基准。

注释过程

注释者编写简化句时通常遵循注释指南。

注释者

注释者包括作家、翻译、教师、语言学家、记者、众包工作者、专家、新闻机构、医学生、学生、作家和研究人员。

使用数据集的注意事项

数据集的社会影响

我们希望这个数据集能够对社会产生积极影响，因为文本简化任务服务于儿童、第二语言学习者以及有阅读/认知障碍的人群。

数据集的偏见

注释者可能会有偏见，倾向于他们认为更简单的句子应该如何书写。此外，注释者和编辑可以选择简化句子中不包含哪些信息，从而引入信息重要性偏见。

其他已知限制

一些资源是自动收集或机器翻译的，因此并非每个句子都完美对齐。建议用户在使用这些个别资源时谨慎。

附加信息

数据集许可

MIT License

引用信息

请根据您使用的MultiSimV2基准中的个别数据集进行适当引用。

搜集汇总

数据集介绍

构建方式

MultiSimV2数据集是一个多语言文本简化基准，涵盖了12种语言的复杂-简单句子对。该数据集通过整合27个现有的文本简化资源构建而成，这些资源包括从维基百科、新闻文章、科学文献等多种来源自动或手动收集的句子对。每个资源的数据经过标准化处理，确保数据格式的一致性，并保留了原始数据的分割方式（训练集、验证集和测试集）。

特点

MultiSimV2数据集的特点在于其多语言覆盖和丰富的文本类型。数据集包含超过170万对复杂-简单句子，涵盖了从新闻、百科、文学到法律和医学等多个领域。每个句子对都经过精心标注，部分数据集还提供了多个简化版本，便于评估模型的多样性和准确性。此外，数据集支持多种任务，如文本生成、文本到文本生成和摘要生成，适用于多语言文本简化研究。

使用方法

使用MultiSimV2数据集时，可以通过Hugging Face的`datasets`库轻松加载。用户只需调用`load_dataset`函数并指定数据集名称即可获取训练、验证和测试集。数据集的每个实例包含`original`（原始句子）和`simple`（简化句子）字段，部分验证和测试集还提供了多个简化版本。用户可以利用这些数据进行模型训练、评估和跨语言迁移学习，尤其适合研究多语言文本简化模型的性能提升。

背景与挑战

背景概述

MultiSimV2数据集由斯坦福大学的研究人员Michael Ryan等人于2023年创建，旨在推动多语言文本简化（Text Simplification）领域的研究。该数据集整合了27个现有的文本简化资源，涵盖了12种语言，包含超过170万对复杂-简单句子对。MultiSimV2的推出填补了非英语文本简化领域缺乏多样化评估基准的空白，为多语言文本简化模型的开发和评估提供了重要支持。该数据集的研究成果已在ACL 2023会议上发表，展示了多语言训练在非英语环境中的显著性能提升，尤其是在低资源语言上的零样本跨语言迁移效果。

当前挑战

MultiSimV2数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，文本简化任务需要模型在保留原句核心语义的同时，生成易于理解的简化句子，这对模型的语义理解和生成能力提出了极高要求。其次，在数据集构建过程中，由于数据来源多样，包括自动收集、人工标注和机器翻译等，数据质量和一致性存在一定挑战。例如，部分自动收集或机器翻译的句子对可能存在对齐不准确的问题，影响了数据的可靠性。此外，不同语言的语法结构和文化背景差异也为多语言模型的训练和评估带来了复杂性。

常用场景

经典使用场景

MultiSimV2数据集在自然语言处理领域中的经典使用场景主要集中在多语言文本简化任务上。该数据集通过提供多种语言的复杂-简单句子对，支持研究人员开发和评估多语言文本简化模型。其广泛的语言覆盖和丰富的语料库使得MultiSimV2成为跨语言文本简化研究的理想选择。

衍生相关工作

基于MultiSimV2数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集训练了多语言预训练模型，并在零样本跨语言迁移任务中取得了显著效果。此外，该数据集还推动了基于BLOOM-176b的少样本提示方法的研究，展示了其在多语言文本简化任务中的潜力。

数据集最近研究