community-datasets/turk

Name: community-datasets/turk
Creator: community-datasets
Published: 2024-06-26 07:26:59
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/turk

下载链接

链接失效反馈

官方服务：

资源简介：

TURK是一个用于评估英语句子简化任务的多参考数据集。它包含来自Parallel Wikipedia Simplification (PWKP)语料库的2,359个句子，每个句子有8个众包的简化版本，这些简化版本仅关注词汇改写，不涉及句子拆分或删除。数据集分为验证集和测试集，分别包含2000个和359个句子。数据集的创建目的是为了评估文本简化任务，并且所有信息均来自公开的英语维基百科。数据集可能包含一些社会偏见，因为输入句子基于维基百科内容。

TURK is a multi-reference dataset for evaluating English sentence simplification tasks. It contains 2,359 sentences from the Parallel Wikipedia Simplification (PWKP) corpus, each paired with 8 crowd-sourced simplifications that exclusively focus on lexical paraphrasing, without involving sentence splitting or deletion. The dataset is split into a validation set and a test set, containing 2000 and 359 sentences respectively. The dataset is developed to evaluate text simplification tasks, and all information is sourced from publicly available English Wikipedia. The dataset may contain certain social biases, as the input sentences are based on Wikipedia content.

提供机构：

community-datasets

原始信息汇总

数据集卡片 TURK

数据集描述

数据集摘要

TURK 是一个用于评估英语句子简化任务的多参考数据集。该数据集包含 2,359 个来自 Parallel Wikipedia Simplification (PWKP) corpus 的句子，每个句子有 8 个众包简化版本，仅关注词汇释义（不包括句子拆分或删除）。

支持的任务和排行榜

该数据集不提供排行榜。

语言

TURK 仅包含英语文本（BCP-47: en）。

数据集结构

数据实例

每个实例包含一个原始句子和 8 个可能的参考简化版本，这些简化版本仅关注词汇释义。

json { "original": "one side of the armed conflicts is composed mainly of the sudanese military and the janjaweed, a sudanese militia group recruited mostly from the afro-arab abbala tribes of the northern rizeigat region in sudan.", "simplifications": [ "one side of the armed conflicts is made of sudanese military and the janjaweed, a sudanese militia recruited from the afro-arab abbala tribes of the northern rizeigat region in sudan.", "one side of the armed conflicts consist of the sudanese military and the sudanese militia group janjaweed.", "one side of the armed conflicts is mainly sudanese military and the janjaweed, which recruited from the afro-arab abbala tribes.", "one side of the armed conflicts is composed mainly of the sudanese military and the janjaweed, a sudanese militia group recruited mostly from the afro-arab abbala tribes in sudan.", "one side of the armed conflicts is made up mostly of the sudanese military and the janjaweed, a sudanese militia group whose recruits mostly come from the afro-arab abbala tribes from the northern rizeigat region in sudan.", "the sudanese military and the janjaweed make up one of the armed conflicts, mostly from the afro-arab abbal tribes in sudan.", "one side of the armed conflicts is composed mainly of the sudanese military and the janjaweed, a sudanese militia group recruited mostly from the afro-arab abbala tribes of the northern rizeigat regime in sudan.", "one side of the armed conflicts is composed mainly of the sudanese military and the janjaweed, a sudanese militia group recruited mostly from the afro-arab abbala tribes of the northern rizeigat region in sudan." ] }

数据字段

original: 来自源数据集的原始句子。
simplifications: 一组由众包工作者提供的参考简化版本。

数据拆分

TURK 不包含训练集；许多模型使用 WikiLarge 或 Wiki-Auto 进行训练。每个输入句子有 8 个相关的参考简化句子。2,359 个输入句子被随机分为 2,000 个验证句子和 359 个测试句子。

	Dev	Test	Total
输入句子	2000	359	2359
参考简化版本	16000	2872	18872

数据集创建

策划理由

TURK 数据集是为了评估文本简化任务而构建的。它包含多个人工编写的参考，仅关注词汇简化。

源数据

初始数据收集和规范化

数据集中的输入句子来自 Parallel Wikipedia Simplification (PWKP) corpus。

源语言生产者

参考来自 Amazon Mechanical Turk 的众包工作者。

标注

标注过程

标注者收到的指示在论文中提供。

标注者

标注者是 Amazon Mechanical Turk 工作者。

个人和敏感信息

由于数据集来自公开的英语维基百科（2009 年 8 月 22 日版本），数据集中的所有信息均已公开。

使用数据的注意事项

数据集的社会影响

该数据集有助于推动文本简化研究，提高书面文档的可访问性。

讨论偏见

数据集可能包含一些社会偏见，因为输入句子基于维基百科。

其他已知限制

由于数据集仅包含 2,359 个来自维基百科的句子，因此仅限于维基百科上的一小部分主题。

附加信息

数据集策展人

TURK 由宾夕法尼亚大学的研究人员开发。

许可信息

GNU General Public License v3.0

引用信息

bibtex @article{Xu-EtAl:2016:TACL, author = {Wei Xu and Courtney Napoles and Ellie Pavlick and Quanze Chen and Chris Callison-Burch}, title = {Optimizing Statistical Machine Translation for Text Simplification}, journal = {Transactions of the Association for Computational Linguistics}, volume = {4}, year = {2016}, url = {https://cocoxu.github.io/publications/tacl2016-smt-simplification.pdf}, pages = {401--415} }

贡献

感谢 @mounicam 添加此数据集。

搜集汇总

数据集介绍

构建方式

在文本简化研究领域，TURK数据集的构建体现了对评估基准的精心设计。该数据集源自Parallel Wikipedia Simplification (PWKP)语料库，从中选取了2,359个英文句子作为原始文本。通过亚马逊众包平台，招募工作者为每个句子生成8个简化版本，这些简化严格聚焦于词汇层面的改写，避免了句子拆分或信息删减，从而确保了评估的针对性与一致性。数据被划分为2,000个验证样本和359个测试样本，为模型性能提供了可靠的评估框架。

特点

TURK数据集在文本简化任务中展现出鲜明的特性。其核心在于每个原始句子均对应8个人工撰写的简化参考，这种多参考设计增强了评估的鲁棒性，能够更全面地捕捉简化表达的多样性。数据集专注于词汇简化，保持了句子结构的完整性，这为研究纯粹的词汇替换策略提供了理想环境。此外，数据源于公开的维基百科内容，所有信息均属公有领域，降低了使用中的法律风险，但同时也继承了源数据可能存在的性别与种族偏见。

使用方法

在自然语言处理的应用中，TURK数据集主要服务于文本简化模型的评估。由于数据集本身未包含训练集，研究者通常需结合WikiLarge或Wiki-Auto等大型语料进行模型训练。使用时，可将验证集用于超参数调优或开发集评估，测试集则用于最终性能报告。通过对比模型生成的简化句子与8个参考简化之间的相似度，能够量化模型在词汇改写上的能力。数据集以标准JSON格式提供，便于直接加载并集成到现有评估流程中。

背景与挑战

背景概述

TURK数据集诞生于2016年，由宾夕法尼亚大学的研究团队在Wei Xu等人的主导下构建，并得到美国国家科学基金会的资助。该数据集专注于英文文本简化任务，旨在通过提供多参考简化句对，推动统计机器翻译在文本简化领域的优化研究。其核心研究问题在于如何通过词汇层面的改写，实现句子简化同时保持原意不变，从而提升文本的可读性与普及性。TURK基于并行维基百科简化语料库构建，为后续文本简化模型的评估提供了高质量基准，显著促进了自然语言处理中可访问性研究的发展。

当前挑战

TURK数据集所针对的文本简化任务面临多重挑战：在领域层面，模型需在仅进行词汇改写的前提下，平衡简化程度与信息保留，避免引入语义偏差或句法错误；同时，评估多参考简化输出的质量缺乏统一标准，增加了自动评价的复杂性。在构建过程中，挑战主要源于众包标注的一致性控制，确保不同工作者产出的简化句在风格与难度上保持可比性；此外，数据源局限于维基百科的特定主题，导致数据集在领域覆盖和语言多样性方面存在局限，可能无法全面反映真实世界文本的简化需求。

常用场景

经典使用场景

在文本简化研究领域，TURK数据集作为评估基准，其经典应用场景聚焦于词汇层面的改写任务。该数据集通过提供每个原始句子的八个众包简化参考，为模型性能的量化评估奠定了坚实基础。研究者通常利用这些多参考简化，计算自动化指标如BLEU或SARI，以客观衡量简化系统在保留原意的同时提升文本可读性的能力。这种评估方式有效推动了文本简化技术从粗放式转换向精细化、可控化方向演进。

衍生相关工作

围绕TURK数据集，学术界衍生出一系列经典研究工作。例如，Xu等人2016年的开创性论文首次提出利用统计机器翻译框架优化文本简化，并以此数据集进行验证。后续研究如Jiang等人2020年构建的Wiki-Auto数据集，常与TURK结合用于模型训练与评估。在模型方面，基于Transformer的神经简化模型、结合强化学习的可控简化方法，均广泛使用TURK作为核心测试集，其多参考特性也催生了针对简化任务的新颖评估指标与损失函数设计。

数据集最近研究