Multilingual-Perspectivist-NLU/EPIC
收藏Hugging Face2024-05-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Multilingual-Perspectivist-NLU/EPIC
下载链接
链接失效反馈官方服务:
资源简介:
EPIC(English Perspectivist Irony Corpus)是一个用于讽刺检测的英语语料库,包含来自Twitter和Reddit的3000对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持使用软标签(即注释的分布)或硬标签(即聚合标签)进行讽刺分类任务。数据集的创建过程、注释者信息、数据字段和结构、以及使用该数据集时需要考虑的社会影响和偏见问题也在README中进行了详细说明。
EPIC(English Perspectivist Irony Corpus)是一个用于讽刺检测的英语语料库,包含来自Twitter和Reddit的3000对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持使用软标签(即注释的分布)或硬标签(即聚合标签)进行讽刺分类任务。数据集的创建过程、注释者信息、数据字段和结构、以及使用该数据集时需要考虑的社会影响和偏见问题也在README中进行了详细说明。
提供机构:
Multilingual-Perspectivist-NLU
原始信息汇总
数据集概述
名称: EPIC (English Perspectivist Irony Corpus)
语言: 英语(包含英国、美国、爱尔兰、澳大利亚和印度等不同变体)
任务类别: 文本分类(特别是讽刺检测)
许可: cc-by-nc-sa-4.0
数据集大小: 10K<n<100K
数据集详细信息
数据集摘要
EPIC是一个用于讽刺检测的英语语料库,包含3,000对来自Twitter和Reddit的简短对话(帖子-回复),以及每位标注者的年龄、国籍、性别等人口统计信息。
支持的任务和排行榜
支持的任务包括使用软标签(即标注分布)或硬标签(即聚合标签)进行讽刺分类。
数据集结构
- 数据实例: 总共有14,172个实例,数据集文件大小为6.48 MB。
- 数据字段: 数据集结构包括行中的每个标注者(通过“用户”ID标识)的标注,以及列中的目标文本信息(id_original, parent_text, language_instance, language_variety)和标注者元数据(年龄、性别、种族等)。
- 数据分割: 数据集未分割为训练集和验证/测试集。
数据集创建
- 源数据: 数据来源于Reddit和Twitter用户。
- 标注过程: 标注工作在Prolific平台上进行,标注者为来自英国、美国、澳大利亚、印度和爱尔兰的英语使用者。
- 个人和敏感信息: 标注者的个人信息由Prolific平台提供,并获得其同意。Reddit和Twitter用户的元数据在语料库中不可用。
使用数据时的考虑
- 社会影响: 鼓励社区开发更具包容性的人工智能技术。
- 偏见讨论: 分析表明,使用多数投票策略聚合标签可能引入偏见,但数据集以分散形式发布,并考虑了不同社会人口统计特征的标注者。
- 其他已知限制: 尽管尝试在标注者的人口统计特征上保持平衡,但仅限于五种英语变体和五个国家,未包括其他潜在地点或更细致的语言变体区分。性别信息仅以二元形式提供。
数据集管理者和贡献
- 数据集管理者: 都灵大学计算机科学系
- 资金支持: 部分由Multilingual Perspective-Aware NLU项目与Amazon Alexa合作资助。



