EASIER corpus

github2023-05-15 更新2024-05-31 收录

下载链接：

https://github.com/LURMORENO/EASIER_CORPUS

下载链接

链接失效反馈

官方服务：

资源简介：

EASIER corpus是一个为认知障碍人士设计的词汇简化资源，包含8155个复杂词汇的检测和7892个建议的同义词。数据集详细记录了每个句子的复杂词汇标注及相关信息，每个信息之间通过TAB字符分隔。

The EASIER corpus is a lexical simplification resource designed for individuals with cognitive impairments, comprising the detection of 8,155 complex words and 7,892 suggested synonyms. The dataset meticulously documents the annotation of complex words in each sentence along with related information, with each piece of information separated by a TAB character.

创建时间：

2021-01-04

原始信息汇总

EASIER_CORPUS 数据集概述

数据集结构

CWI 数据集

第一列：文档ID
第二列：句子ID
第三列：句子内容
第四、五列：目标词的偏移量
第六列：目标词
第七列：二元任务的黄金标准标签

SG/SS 数据集

第一列：文档ID
第二列：目标词ID
第三列：目标词
第四列：句子内容
第五列：目标词的建议同义词，以逗号分隔

数据集统计

复杂词检测：8155个
建议同义词：7892个

标注一致性

科恩卡帕系数

标注者(1)和(2)：0.6094
标注者(1)和(3)：0.6422
标注者(2)和(3)：0.6739

弗莱士卡帕系数

标注者(1)、(2)和(3)：0.641

引用信息

论文：Alarcon R, Moreno L, Martínez P (2023) EASIER corpus: A lexical simplification resource for people with cognitive impairments. PLOS ONE 18(4): e0283622. https://doi.org/10.1371/journal.pone.0283622

版权信息

许可证：CC BY-NC-ND 4.0

搜集汇总

数据集介绍

构建方式

EASIER语料库的构建基于对复杂词汇的检测与简化需求，旨在为认知障碍者提供词汇简化资源。数据集的构建过程包括从文档中提取句子，并标注其中的复杂词汇及其在句子中的位置。每个句子均包含一个复杂词汇的注释及其相关信息，数据以TAB字符分隔。为确保标注的准确性，数据集通过多位标注者之间的Cohen's Kappa和Fleiss Kappa一致性检验，标注者间的一致性得分分别为0.6094至0.6739，表明标注结果具有较高的可靠性。

特点

EASIER语料库包含8155个复杂词汇检测实例和7892个建议同义词，覆盖了丰富的词汇简化场景。数据集分为两个部分：CWI数据集和SG/SS数据集。CWI数据集包含文档ID、句子ID、句子内容、目标词汇的偏移量、目标词汇及其二元任务的黄金标准标签；SG/SS数据集则包含文档ID、目标词汇ID、目标词汇、句子内容及其建议同义词。数据集的标注质量通过多位标注者的一致性检验得到验证，确保了数据的科学性和实用性。

使用方法

EASIER语料库的使用方法主要围绕复杂词汇检测与简化展开。用户可通过解析TAB分隔的数据文件，获取句子、目标词汇及其相关信息。对于CWI数据集，用户可利用文档ID、句子ID及目标词汇的偏移量定位复杂词汇，并结合黄金标准标签进行二元分类任务。对于SG/SS数据集，用户可通过目标词汇及其建议同义词进行词汇简化研究。使用该数据集时，需遵循CC BY-NC-ND 4.0许可协议，并引用相关文献以尊重数据贡献者的知识产权。

背景与挑战

背景概述

EASIER corpus是由Alarcon R、Moreno L和Martínez P等研究人员于2023年创建的一个专门用于词汇简化研究的语料库，旨在为认知障碍人群提供语言支持。该数据集包含8155个复杂词汇的标注和7892个建议的同义词，涵盖了复杂的词汇检测和同义词推荐任务。该语料库的构建得到了西班牙国家研究计划（PID2020-116527RB-I0）和欧盟REACT项目的资助，其研究成果发表在PLOS ONE期刊上。EASIER corpus的发布为自然语言处理领域，特别是词汇简化和辅助技术研究提供了重要的数据支持，推动了相关领域的发展。

当前挑战

EASIER corpus在构建过程中面临的主要挑战包括复杂词汇的准确标注和同义词的合理推荐。首先，复杂词汇的识别需要高度的语言学知识和上下文理解能力，以确保标注的准确性。其次，同义词的推荐不仅要考虑语义的相似性，还需兼顾认知障碍人群的语言理解能力，这对数据集的构建提出了更高的要求。此外，数据集的标注一致性也是一个重要挑战，尽管通过Cohen's Kappa和Fleiss Kappa统计方法验证了标注者之间的一致性，但在实际应用中仍需进一步优化以提高数据的可靠性。这些挑战不仅反映了词汇简化任务的复杂性，也为未来的研究提供了改进的方向。

常用场景

经典使用场景

EASIER corpus 数据集在自然语言处理领域中被广泛应用于词汇简化任务。该数据集通过标注复杂词汇及其同义词，为研究人员提供了丰富的语料资源，特别适用于开发针对认知障碍人群的文本简化工具。其结构化的数据格式和详细的标注信息使得它成为训练和评估词汇简化算法的理想选择。

衍生相关工作

EASIER corpus 数据集催生了一系列相关研究，特别是在词汇简化和自然语言处理领域。基于该数据集的研究工作包括开发更高效的复杂词汇检测算法、同义词推荐模型以及针对特定人群的文本简化系统。此外，该数据集还被用于跨语言词汇简化研究，推动了多语言文本处理技术的发展。

数据集最近研究