Multilingual-Perspectivist-NLU/EPIC

Name: Multilingual-Perspectivist-NLU/EPIC
Creator: Multilingual-Perspectivist-NLU
Published: 2024-05-31 11:58:46
License: 暂无描述

Hugging Face2024-05-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Multilingual-Perspectivist-NLU/EPIC

下载链接

链接失效反馈

官方服务：

资源简介：

EPIC（English Perspectivist Irony Corpus）是一个用于讽刺检测的英语语料库，包含来自Twitter和Reddit的3000对短对话（帖子-回复），以及每个注释者的人口统计信息（如年龄、国籍、性别等）。数据集支持使用软标签（即注释的分布）或硬标签（即聚合标签）进行讽刺分类任务。数据集的创建过程、注释者信息、数据字段和结构、以及使用该数据集时需要考虑的社会影响和偏见问题也在README中进行了详细说明。

提供机构：

Multilingual-Perspectivist-NLU

原始信息汇总

数据集概述

名称: EPIC (English Perspectivist Irony Corpus)

语言: 英语（包含英国、美国、爱尔兰、澳大利亚和印度等不同变体）

任务类别: 文本分类（特别是讽刺检测）

许可: cc-by-nc-sa-4.0

数据集大小: 10K<n<100K

数据集详细信息

数据集摘要

EPIC是一个用于讽刺检测的英语语料库，包含3,000对来自Twitter和Reddit的简短对话（帖子-回复），以及每位标注者的年龄、国籍、性别等人口统计信息。

支持的任务和排行榜

支持的任务包括使用软标签（即标注分布）或硬标签（即聚合标签）进行讽刺分类。

数据集结构

数据实例: 总共有14,172个实例，数据集文件大小为6.48 MB。
数据字段: 数据集结构包括行中的每个标注者（通过“用户”ID标识）的标注，以及列中的目标文本信息（id_original, parent_text, language_instance, language_variety）和标注者元数据（年龄、性别、种族等）。
数据分割: 数据集未分割为训练集和验证/测试集。

数据集创建

源数据: 数据来源于Reddit和Twitter用户。
标注过程: 标注工作在Prolific平台上进行，标注者为来自英国、美国、澳大利亚、印度和爱尔兰的英语使用者。
个人和敏感信息: 标注者的个人信息由Prolific平台提供，并获得其同意。Reddit和Twitter用户的元数据在语料库中不可用。

使用数据时的考虑

社会影响: 鼓励社区开发更具包容性的人工智能技术。
偏见讨论: 分析表明，使用多数投票策略聚合标签可能引入偏见，但数据集以分散形式发布，并考虑了不同社会人口统计特征的标注者。
其他已知限制: 尽管尝试在标注者的人口统计特征上保持平衡，但仅限于五种英语变体和五个国家，未包括其他潜在地点或更细致的语言变体区分。性别信息仅以二元形式提供。

数据集管理者和贡献

数据集管理者: 都灵大学计算机科学系
资金支持: 部分由Multilingual Perspective-Aware NLU项目与Amazon Alexa合作资助。

5,000+

优质数据集

54 个

任务类型

进入经典数据集