HULAT/EASIER_CORPUS
收藏Hugging Face2024-04-09 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/HULAT/EASIER_CORPUS
下载链接
链接失效反馈官方服务:
资源简介:
EASIER_CORPUS是一个用于词汇简化的数据集,主要包含复杂词检测和同义词建议两个任务。数据集中的每一行代表一个句子,包含一个复杂词的注释和相关信息,各字段之间用TAB字符分隔。CWI数据集的列包括文档ID、句子ID、句子、目标词的偏移量、目标词以及二元任务的黄金标准标签。SG/SS数据集的列包括文档ID、目标词ID、目标词、句子以及目标词的建议同义词。数据集还进行了标注者之间的一致性评估,使用了Cohens Kappa和Fleiss Kappa两种统计方法。数据集的使用需要引用相关论文,并遵循CC BY-NC-ND 4.0许可协议。
EASIER_CORPUS是一个用于词汇简化的数据集,主要包含复杂词检测和同义词建议两个任务。数据集中的每一行代表一个句子,包含一个复杂词的注释和相关信息,各字段之间用TAB字符分隔。CWI数据集的列包括文档ID、句子ID、句子、目标词的偏移量、目标词以及二元任务的黄金标准标签。SG/SS数据集的列包括文档ID、目标词ID、目标词、句子以及目标词的建议同义词。数据集还进行了标注者之间的一致性评估,使用了Cohens Kappa和Fleiss Kappa两种统计方法。数据集的使用需要引用相关论文,并遵循CC BY-NC-ND 4.0许可协议。
提供机构:
HULAT
原始信息汇总
EASIER_CORPUS
数据集概述
- 名称: EASIER_CORPUS
- 语言: 西班牙语
- 许可证: CC BY-NC-ND 4.0
数据集内容
- 任务:
- 复杂词汇检测: 8155条
- 建议同义词: 7892条
数据格式
-
复杂词汇检测数据集:
- 第一列: 文档ID
- 第二列: 句子ID
- 第三列: 句子
- 第四列和第五列: 目标词的偏移量
- 第六列: 目标词
- 第七列: 二分类任务的金标准标签
-
同义词建议数据集:
- 第一列: 文档ID
- 第二列: 目标词ID
- 第三列: 目标词
- 第四列: 句子
- 第五列: 目标词的建议同义词,以逗号分隔
标注一致性
-
Cohens Kappa:
标注者 得分 (1) (2) 0.6094 (1) (3) 0.6422 (2) (3) 0.6739 -
Fleiss Kappa:
标注者 得分 (1) (2) (3) 0.641
引用信息
- 参考文献: Alarcon R, Moreno L, Martínez P (2023) EASIER corpus: A lexical simplification resource for people with cognitive impairments. PLOS ONE 18(4): e0283622. https://doi.org/10.1371/journal.pone.0283622



