why-tough

Name: why-tough
Creator: 英国利兹大学
Published: 2025-01-03 21:09:46
License: 暂无描述

arXiv2025-01-03 更新2025-01-07 收录

下载链接：

https://github.com/Nouran-Khallaf/why-tough

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由英国利兹大学的研究团队创建，旨在研究文本简化策略，特别是针对智力障碍人群的阅读难度问题。数据集包含76对平行文本，涵盖了健康、政治、公共信息等多个领域，数据来源于苏格兰的公共服务、2024年英国大选的政治宣言以及国家慈善机构的通讯。数据集通过标注标准英语和易读英语的句子对，提供了丰富的简化策略标注，包括词汇、句法和语义层面的变化。该数据集的应用领域主要集中在文本简化研究，旨在通过简化策略提高文本的可读性和可访问性，帮助智力障碍人群更好地理解信息。

This dataset was developed by a research team at the University of Leeds, UK, to investigate text simplification strategies, with a specific focus on addressing reading accessibility challenges for people with intellectual disabilities. It contains 76 parallel text pairs spanning multiple domains including health, politics and public information, sourced from Scottish public services, the 2024 UK General Election political manifestos, and newsletters of national charities. By annotating sentence pairs between standard English and plain English, the dataset provides rich annotations of simplification strategies, covering modifications at the lexical, syntactic and semantic levels. The primary application scope of this dataset is text simplification research, which aims to improve text readability and accessibility via simplification strategies to help people with intellectual disabilities better comprehend information.

提供机构：

英国利兹大学

创建时间：

2025-01-03

原始信息汇总

数据集概述

数据集名称

Reading Between the Lines: A dataset and a study on why some texts are tougher than others

数据集来源

该数据集来源于苏格兰的多种公共服务领域，包括健康、公共信息和政治等。

数据集内容

健康领域：21篇文本，复杂文本包含183,677个单词和7,258个句子，简化文本包含30,253个单词和1,519个句子。
公共信息领域：4篇文本，复杂文本包含12,217个单词和527个句子，简化文本包含3,378个单词和217个句子。
政治领域：9篇文本，复杂文本包含113,412个单词和4,824个句子，简化文本包含12,474个单词和832个句子。
数据选择：复杂文本包含4,166个单词和155个句子，简化文本包含3,259个单词和161个句子。

数据集特点

该数据集专注于句子级别的文本简化任务，提供了词汇、句法和语义变化的注释。
与以往的资源（如WikiLarge和ASSET）不同，该数据集不仅关注单词级别的简化，还解释了为什么需要进行这些简化。

研究贡献

扩展了文本简化策略的分类法，整合了翻译研究的见解。
提供了一个从苏格兰公共服务中获取的复杂和简化文本的语料库。
使用基于Transformer的模型进行简化策略预测的实验。
使用可解释的人工智能（XAI）技术（如集成梯度）来解释模型预测。

数据集使用

数据集中的注释文本位于/texts/目录下。
训练模型的命令示例： bash train.py PLM checkpoit /texts/annotated.csv [hyperparameters]
使用的预训练语言模型（PLMs）包括BERT和RoBERTa。

引用

论文标题：Reading Between the Lines: A Dataset and a Study on Why Some Texts Are Tougher Than Others
作者：Nouran Khallaf, Carlo Eugeni, and Serge Sharoff
会议：Writing Aids at the Crossroads of AI, Cognitive Science, and NLP (WR-AI-CogS), COLING 2025, Abu Dhabi
arXiv链接：arXiv:2501.01796

引用格式

bibtex @inproceedings{khallaf2025readinglinesdatasetstudy, title={Reading Between the Lines: A dataset and a study on why some texts are tougher than others}, author={Nouran Khallaf and Carlo Eugeni and Serge Sharoff}, booktitle={Writing Aids at the Crossroads of AI, Cognitive Science and NLP WR-AI-CogS, at COLING2025}, address={Abu Dhabi}, year={2025}, eprint={2501.01796}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.01796} }

搜集汇总

数据集介绍

构建方式

why-tough数据集的构建基于对特定受众（尤其是认知功能受限的智力障碍者）阅读难度的深入研究。数据集主要来源于苏格兰公共服务、2024年英国大选的政治宣言以及苏格兰残疾人平等慈善机构的新闻通讯等公开文本。这些文本涵盖了医疗、环境政策、法律体系等多个领域。通过将标准英语（SE）与易读英语（E2R）的平行文本进行对比，研究者对文本进行了详细的标注，标注框架基于心理学和翻译研究的实证研究，涵盖了六种预定义的简化策略类别。

特点

why-tough数据集的特点在于其全面性和多样性。它不仅关注词汇简化，还涵盖了句法、语义等多层次的简化策略，提供了从标准英语到易读英语的平行文本对。数据集标注了六种主要的简化策略类别，包括解释、省略、句法变化等，使得研究者能够深入理解简化过程中不同策略的相互作用。此外，数据集的文本来源广泛，涵盖了多个领域的主题，确保了其在研究中的普适性和实用性。

使用方法

why-tough数据集的使用方法主要集中在文本简化任务的多类别分类上。研究者通过微调预训练的Transformer模型（如BERT、RoBERTa等）来预测标准英语句子所需的简化策略。数据集被划分为训练集和验证集，采用分层5折交叉验证以确保模型的泛化能力。此外，研究者还使用了加权交叉熵损失函数来处理类别不平衡问题，并通过集成梯度（IG）方法解释模型的预测过程，增强了模型的可解释性。该数据集为研究文本简化策略及其在提高信息可访问性方面的应用提供了重要资源。

背景与挑战

背景概述

why-tough数据集由英国利兹大学的Nouran Khallaf、Carlo Eugeni和Serge Sharoff等人于2025年创建，旨在研究文本简化策略，特别是针对认知功能受限的读者群体，如智力障碍者。该数据集基于心理学和翻译研究的实证研究，提供了标准英语（SE）与易读英语（E2R）的平行文本，并通过多类别分类任务预测简化策略。其核心研究问题是如何通过文本简化提升信息的可访问性，确保智力障碍者能够平等获取信息。该数据集为文本简化领域提供了新的视角，推动了多语言模型在简化任务中的应用，并为解释性人工智能（XAI）技术提供了实验平台。

当前挑战

why-tough数据集在解决文本简化问题时面临多重挑战。首先，文本简化任务需要综合考虑词汇、句法和语义的复杂性，而现有研究多局限于词汇简化，忽略了句子层面的整体简化策略。其次，数据集的构建过程中，如何准确标注简化策略并确保其与人类判断的一致性是一大难题。此外，尽管大型语言模型（LLMs）在简化任务中表现出色，但其“黑箱”特性使得模型决策难以解释，限制了其在实际应用中的可信度。最后，数据集中某些简化策略类别（如语法调整和省略）的样本较少，导致模型在这些类别上的表现不佳，进一步凸显了数据平衡的重要性。

常用场景

经典使用场景

why-tough数据集主要用于研究文本简化策略，特别是在标准英语（Standard English, SE）与易读英语（Easy to Read English, E2R）之间的转换。该数据集通过标注复杂的SE句子及其对应的简化E2R句子，帮助研究者理解文本简化的具体策略，如词汇替换、句法调整和语义解释等。这一数据集在自然语言处理领域中被广泛用于训练和评估文本简化模型，尤其是在多类别分类任务中，预测哪些简化策略适用于特定句子。

衍生相关工作

why-tough数据集衍生了一系列相关研究，尤其是在文本简化和自然语言处理领域。基于该数据集的研究工作主要集中在开发更高效的文本简化模型，如基于Transformer的多类别分类模型。此外，该数据集还推动了解释性人工智能（XAI）在文本简化中的应用，研究者通过集成梯度法（Integrated Gradients）等技术，深入分析模型在简化策略预测中的决策过程。这些研究不仅提升了文本简化模型的性能，还为其他领域（如机器翻译和自动摘要）提供了新的思路和方法。

数据集最近研究