five

HULAT/EASIER_CORPUS

收藏
Hugging Face2024-04-09 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/HULAT/EASIER_CORPUS
下载链接
链接失效反馈
官方服务:
资源简介:
EASIER_CORPUS是一个用于词汇简化的数据集,主要包含复杂词检测和同义词建议两个任务。数据集中的每一行代表一个句子,包含一个复杂词的注释和相关信息,各字段之间用TAB字符分隔。CWI数据集的列包括文档ID、句子ID、句子、目标词的偏移量、目标词以及二元任务的黄金标准标签。SG/SS数据集的列包括文档ID、目标词ID、目标词、句子以及目标词的建议同义词。数据集还进行了标注者之间的一致性评估,使用了Cohens Kappa和Fleiss Kappa两种统计方法。数据集的使用需要引用相关论文,并遵循CC BY-NC-ND 4.0许可协议。

EASIER_CORPUS是一个用于词汇简化的数据集,主要包含复杂词检测和同义词建议两个任务。数据集中的每一行代表一个句子,包含一个复杂词的注释和相关信息,各字段之间用TAB字符分隔。CWI数据集的列包括文档ID、句子ID、句子、目标词的偏移量、目标词以及二元任务的黄金标准标签。SG/SS数据集的列包括文档ID、目标词ID、目标词、句子以及目标词的建议同义词。数据集还进行了标注者之间的一致性评估,使用了Cohens Kappa和Fleiss Kappa两种统计方法。数据集的使用需要引用相关论文,并遵循CC BY-NC-ND 4.0许可协议。
提供机构:
HULAT
原始信息汇总

EASIER_CORPUS

数据集概述

  • 名称: EASIER_CORPUS
  • 语言: 西班牙语
  • 许可证: CC BY-NC-ND 4.0

数据集内容

  • 任务:
    • 复杂词汇检测: 8155条
    • 建议同义词: 7892条

数据格式

  • 复杂词汇检测数据集:

    • 第一列: 文档ID
    • 第二列: 句子ID
    • 第三列: 句子
    • 第四列和第五列: 目标词的偏移量
    • 第六列: 目标词
    • 第七列: 二分类任务的金标准标签
  • 同义词建议数据集:

    • 第一列: 文档ID
    • 第二列: 目标词ID
    • 第三列: 目标词
    • 第四列: 句子
    • 第五列: 目标词的建议同义词,以逗号分隔

标注一致性

  • Cohens Kappa:

    标注者 得分
    (1) (2) 0.6094
    (1) (3) 0.6422
    (2) (3) 0.6739
  • Fleiss Kappa:

    标注者 得分
    (1) (2) (3) 0.641

引用信息

  • 参考文献: Alarcon R, Moreno L, Martínez P (2023) EASIER corpus: A lexical simplification resource for people with cognitive impairments. PLOS ONE 18(4): e0283622. https://doi.org/10.1371/journal.pone.0283622
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作