five

Multilingual-Perspectivist-NLU/EPIC

收藏
Hugging Face2024-05-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Multilingual-Perspectivist-NLU/EPIC
下载链接
链接失效反馈
官方服务:
资源简介:
EPIC(English Perspectivist Irony Corpus)是一个用于讽刺检测的英语语料库,包含来自Twitter和Reddit的3000对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持使用软标签(即注释的分布)或硬标签(即聚合标签)进行讽刺分类任务。数据集的创建过程、注释者信息、数据字段和结构、以及使用该数据集时需要考虑的社会影响和偏见问题也在README中进行了详细说明。

EPIC(English Perspectivist Irony Corpus)是一个用于讽刺检测的英语语料库,包含来自Twitter和Reddit的3000对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持使用软标签(即注释的分布)或硬标签(即聚合标签)进行讽刺分类任务。数据集的创建过程、注释者信息、数据字段和结构、以及使用该数据集时需要考虑的社会影响和偏见问题也在README中进行了详细说明。
提供机构:
Multilingual-Perspectivist-NLU
原始信息汇总

数据集概述

名称: EPIC (English Perspectivist Irony Corpus)

语言: 英语(包含英国、美国、爱尔兰、澳大利亚和印度等不同变体)

任务类别: 文本分类(特别是讽刺检测)

许可: cc-by-nc-sa-4.0

数据集大小: 10K<n<100K

数据集详细信息

数据集摘要

EPIC是一个用于讽刺检测的英语语料库,包含3,000对来自Twitter和Reddit的简短对话(帖子-回复),以及每位标注者的年龄、国籍、性别等人口统计信息。

支持的任务和排行榜

支持的任务包括使用软标签(即标注分布)或硬标签(即聚合标签)进行讽刺分类。

数据集结构

  • 数据实例: 总共有14,172个实例,数据集文件大小为6.48 MB。
  • 数据字段: 数据集结构包括行中的每个标注者(通过“用户”ID标识)的标注,以及列中的目标文本信息(id_original, parent_text, language_instance, language_variety)和标注者元数据(年龄、性别、种族等)。
  • 数据分割: 数据集未分割为训练集和验证/测试集。

数据集创建

  • 源数据: 数据来源于Reddit和Twitter用户。
  • 标注过程: 标注工作在Prolific平台上进行,标注者为来自英国、美国、澳大利亚、印度和爱尔兰的英语使用者。
  • 个人和敏感信息: 标注者的个人信息由Prolific平台提供,并获得其同意。Reddit和Twitter用户的元数据在语料库中不可用。

使用数据时的考虑

  • 社会影响: 鼓励社区开发更具包容性的人工智能技术。
  • 偏见讨论: 分析表明,使用多数投票策略聚合标签可能引入偏见,但数据集以分散形式发布,并考虑了不同社会人口统计特征的标注者。
  • 其他已知限制: 尽管尝试在标注者的人口统计特征上保持平衡,但仅限于五种英语变体和五个国家,未包括其他潜在地点或更细致的语言变体区分。性别信息仅以二元形式提供。

数据集管理者和贡献

  • 数据集管理者: 都灵大学计算机科学系
  • 资金支持: 部分由Multilingual Perspective-Aware NLU项目与Amazon Alexa合作资助。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作