why-tough

Name: why-tough
Creator: 英国利兹大学
Published: 2025-01-03 21:09:46
License: 暂无描述

arXiv2025-01-03 更新2025-01-07 收录

下载链接：

https://github.com/NouranKhallaf/why-tough

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由英国利兹大学的研究团队创建，旨在研究文本简化策略，特别是针对智力障碍人群的阅读难度问题。数据集包含76对平行文本，涵盖了健康、政治、公共信息等多个领域，数据来源于苏格兰的公共服务、2024年英国大选的政治宣言以及国家慈善机构的通讯。数据集通过标注标准英语和易读英语的句子对，提供了丰富的简化策略标注，包括词汇、句法和语义层面的变化。该数据集的应用领域主要集中在文本简化研究，旨在通过简化策略提高文本的可读性和可访问性，帮助智力障碍人群更好地理解信息。

提供机构：

英国利兹大学

创建时间：

2025-01-03

搜集汇总

数据集介绍

构建方式

why-tough数据集的构建基于心理学和翻译研究的实证研究，主要来源于在线提供的平行文本（标准英语和易于阅读的英语翻译）。研究者通过标注这些文本，识别出六种预定义的简化策略类别，涵盖了词汇、句法和语义层面的变化。数据集的标注框架借鉴了Inclusion Europe的指南，确保了简化策略的系统性和一致性。此外，研究者还通过微调预训练的Transformer模型，对复杂句子进行分类，预测所需的简化策略。

特点

why-tough数据集的特点在于其全面性和多样性。它不仅涵盖了广泛的公共服务领域文本，如医疗、政治和法律，还通过标注复杂句子与简化句子对，提供了丰富的上下文信息。数据集的标注策略包括六种主要类别，如省略、压缩、解释等，能够全面反映简化过程中的多种策略。此外，数据集还特别关注了认知障碍人群的需求，确保了简化文本的可读性和可理解性。

使用方法

why-tough数据集的使用方法主要集中在文本简化任务的多类分类上。研究者可以通过微调预训练的Transformer模型，利用数据集中的标注信息，预测复杂句子所需的简化策略。此外，数据集还可用于解释性人工智能（XAI）研究，通过集成梯度（Integrated Gradients）方法，分析模型在预测句子难度时的决策过程。这种解释性分析有助于理解模型的预测机制，并为进一步改进模型提供依据。

背景与挑战

背景概述

why-tough数据集由英国利兹大学的Nouran Khallaf、Carlo Eugeni和Serge Sharoff等人于2025年创建，旨在研究文本简化策略，特别是针对认知功能受限的读者群体，如智力障碍者。该数据集基于平行文本（标准英语与易读英语翻译），并通过心理学和翻译研究的实证研究，提出了一套标注困难的方案。研究团队还利用预训练的Transformer模型进行多类分类任务，预测简化策略，并探讨了模型决策的可解释性。该数据集为文本简化领域提供了新的视角，特别是在如何通过语言模型提升文本可读性方面，具有重要的学术和应用价值。

当前挑战

why-tough数据集在构建和应用中面临多重挑战。首先，文本简化任务本身具有复杂性，需在保留核心信息的同时简化词汇、句法和语义结构，这对模型的泛化能力提出了高要求。其次，数据集中某些简化策略（如语法调整和省略）的样本量较少，导致模型在预测这些类别时表现不佳，凸显了数据不平衡问题。此外，尽管大型语言模型（LLMs）在简化任务中表现出色，但其“黑箱”特性使得模型决策难以解释，研究者需借助可解释AI技术（如集成梯度法）来增强模型透明度。最后，数据集的构建依赖于人工标注，标注过程中需平衡语言学理论与实际应用需求，这对标注者的专业素养提出了较高要求。

常用场景

经典使用场景

why-tough数据集主要用于研究文本简化策略，特别是在标准英语（SE）与易读英语（E2R）之间的转换过程中。该数据集通过标注复杂的句子及其简化版本，帮助研究者理解哪些语言特征使得文本对特定受众（如智力障碍者）难以理解。经典使用场景包括训练和评估多类文本分类模型，预测句子简化所需的策略，并通过解释性AI技术分析模型的决策过程。

衍生相关工作

why-tough数据集衍生了一系列相关研究工作。基于该数据集，研究者开发了多种基于Transformer的多类文本分类模型，用于预测句子简化策略。此外，数据集还推动了解释性AI技术在文本简化领域的应用，如使用集成梯度（Integrated Gradients）方法分析模型的决策过程。这些工作不仅提升了文本简化模型的性能，还为理解复杂语言现象提供了新的视角。

数据集最近研究