why-tough
收藏数据集概述
数据集名称
Reading Between the Lines: A dataset and a study on why some texts are tougher than others
数据集来源
该数据集来源于苏格兰的多种公共服务领域,包括健康、公共信息和政治等。
数据集内容
- 健康领域:21篇文本,复杂文本包含183,677个单词和7,258个句子,简化文本包含30,253个单词和1,519个句子。
- 公共信息领域:4篇文本,复杂文本包含12,217个单词和527个句子,简化文本包含3,378个单词和217个句子。
- 政治领域:9篇文本,复杂文本包含113,412个单词和4,824个句子,简化文本包含12,474个单词和832个句子。
- 数据选择:复杂文本包含4,166个单词和155个句子,简化文本包含3,259个单词和161个句子。
数据集特点
- 该数据集专注于句子级别的文本简化任务,提供了词汇、句法和语义变化的注释。
- 与以往的资源(如WikiLarge和ASSET)不同,该数据集不仅关注单词级别的简化,还解释了为什么需要进行这些简化。
研究贡献
- 扩展了文本简化策略的分类法,整合了翻译研究的见解。
- 提供了一个从苏格兰公共服务中获取的复杂和简化文本的语料库。
- 使用基于Transformer的模型进行简化策略预测的实验。
- 使用可解释的人工智能(XAI)技术(如集成梯度)来解释模型预测。
数据集使用
-
数据集中的注释文本位于
/texts/目录下。 -
训练模型的命令示例: bash train.py PLM checkpoit /texts/annotated.csv [hyperparameters]
-
使用的预训练语言模型(PLMs)包括BERT和RoBERTa。
引用
- 论文标题:Reading Between the Lines: A Dataset and a Study on Why Some Texts Are Tougher Than Others
- 作者:Nouran Khallaf, Carlo Eugeni, and Serge Sharoff
- 会议:Writing Aids at the Crossroads of AI, Cognitive Science, and NLP (WR-AI-CogS), COLING 2025, Abu Dhabi
- arXiv链接:arXiv:2501.01796
引用格式
bibtex @inproceedings{khallaf2025readinglinesdatasetstudy, title={Reading Between the Lines: A dataset and a study on why some texts are tougher than others}, author={Nouran Khallaf and Carlo Eugeni and Serge Sharoff}, booktitle={Writing Aids at the Crossroads of AI, Cognitive Science and NLP WR-AI-CogS, at COLING2025}, address={Abu Dhabi}, year={2025}, eprint={2501.01796}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.01796} }

- 1Reading Between the Lines: A dataset and a study on why some texts are tougher than others英国利兹大学 · 2025年



