Multilingual-Perspectivist-NLU/MultiPICo
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Multilingual-Perspectivist-NLU/MultiPICo
下载链接
链接失效反馈官方服务:
资源简介:
MultiPICo(多语言视角讽刺语料库)是一个用于讽刺检测的多语言语料库,包含了来自Twitter和Reddit的18,778对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持讽刺分类任务,使用软标签(即注释的分布)或硬标签(即聚合标签)。数据集包含多种语言,每种语言有不同的变体。数据实例和注释者的数量也被详细列出。数据集的结构、数据字段、数据分割、初始数据收集和标准化过程、注释过程、注释者信息、个人和敏感信息、社会影响、偏见讨论、其他已知限制、数据集策展人和引用信息也被提及。
MultiPICo(多语言视角讽刺语料库)是一个用于讽刺检测的多语言语料库,包含了来自Twitter和Reddit的18,778对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持讽刺分类任务,使用软标签(即注释的分布)或硬标签(即聚合标签)。数据集包含多种语言,每种语言有不同的变体。数据实例和注释者的数量也被详细列出。数据集的结构、数据字段、数据分割、初始数据收集和标准化过程、注释过程、注释者信息、个人和敏感信息、社会影响、偏见讨论、其他已知限制、数据集策展人和引用信息也被提及。
提供机构:
Multilingual-Perspectivist-NLU
原始信息汇总
数据集概述
数据集名称
MultiPICo (Multilingual Perspectivist Irony Corpus)
数据集描述
MultiPICo 是一个用于讽刺检测的多语言分解语料库,包含来自 Twitter (8,956 对) 和 Reddit (9,822 对) 的 18,778 对简短对话(帖子-回复),以及每位标注者的基本信息(年龄、国籍、性别等)。
数据集规模
- 实例总数:94,342
- 标注者总数:506
语言支持
- 西班牙语
- 英语
- 德语
- 阿拉伯语
- 葡萄牙语
- 法语
- 荷兰语
- 意大利语
- 印地语
数据实例分布
- 西班牙语:4,683 实例,122 标注者
- 英语:2,999 实例,74 标注者
- 德语:2,375 实例,70 标注者
- 阿拉伯语:2,181 实例,68 标注者
- 葡萄牙语:1,994 实例,49 标注者
- 法语:1,760 实例,50 标注者
- 荷兰语:1,000 实例,25 标注者
- 意大利语:1,000 实例,24 标注者
- 印地语:786 实例,24 标注者
数据字段
- 行:每个标注者的标注(通过“annotator_id”标识)
- 列:关于用户标注的目标文本的各种信息(post_id, post, reply_id, reply, language, language_variety),以及标注者的元数据(年龄、自识别性别、种族等)
数据分割
该语料库未分割为训练集和验证/测试集。
数据来源
- 文本来源:Reddit 和 Twitter 用户
- 标注过程:在 Prolific 平台上进行
许可证
CC-BY-4.0
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,讽刺检测任务对模型理解人类语言的微妙之处提出了挑战。MultiPICo数据集的构建过程体现了严谨的学术规范,其原始文本来源于Twitter和Reddit平台上的短对话,共计18,778对帖子与回复。通过Prolific众包平台,来自不同国家的506名母语者参与了标注工作,每位标注者均提供了详尽的人口统计信息,包括年龄、国籍、性别等。数据集以去中心化的视角主义理念为核心,保留了每位标注者的独立标注记录,而非简单聚合,从而构建了一个包含94,342条标注实例的多语言语料库。
特点
该数据集在讽刺检测研究领域展现出鲜明的特色。其核心在于采用了视角主义的标注哲学,完整记录了每位标注者的原始判断及背景信息,使得研究者能够深入分析不同社会人口特征对讽刺感知的影响。语料覆盖九种语言及其变体,包括西班牙语、英语、德语、阿拉伯语等,每种语言均包含数千条实例,为跨语言讽刺理解研究提供了宝贵资源。数据集结构清晰,以行为单位存储单次标注,列则涵盖文本内容、语言信息及标注者元数据,这种设计支持对标注分歧和群体偏见的细致考察。
使用方法
对于旨在开发包容性人工智能技术的研究者而言,MultiPICo数据集提供了灵活的应用路径。数据集支持基于软标签(即标注分布)或硬标签(即聚合标签)的讽刺分类任务。使用者可直接利用其去聚合的标注形式,探究不同社会群体对讽刺语言的感知差异,从而训练能够尊重多元视角的模型。由于数据集未预设训练与验证/测试划分,研究者需根据具体实验目标自行分割。在数据处理时,应重点关注标注者元数据与文本内容的关联分析,并留意数据集中关于性别维度表述等已知局限,以确保研究的严谨性。
背景与挑战
背景概述
在自然语言处理领域,反讽检测作为一项复杂的语义理解任务,长期面临跨语言与文化差异的挑战。MultiPICo(多语言视角主义反讽语料库)由都灵大学计算机科学系于2024年主导构建,并得到亚马逊Alexa多语言视角感知NLU项目的部分资助。该数据集聚焦于社交媒体中反讽表达的多元标注问题,通过整合Twitter与Reddit平台的短对话数据,并引入标注者的人口统计学信息,旨在推动视角主义标注范式在多语言环境下的发展。其创新性在于摒弃传统多数投票的标签聚合方法,保留个体标注分布,为研究标注者背景对语义理解的影响提供了珍贵资源,显著促进了包容性人工智能技术的演进。
当前挑战
MultiPICo所针对的反讽检测任务,核心挑战在于反讽表达高度依赖语境、文化背景与语言变体,其主观性导致标注共识难以统一。数据集构建过程中,首先需克服多语言数据采集与标注的复杂性:确保九种语言及其变体的代表性,同时协调来自不同国家的母语标注者,以维持标注质量与多样性平衡。其次,视角主义标注范式要求全面记录标注者的人口统计学特征,但平台提供的性别信息仅限二元选项,未能涵盖更广泛的性别光谱,限制了社会维度分析的完整性。此外,尽管通过注意力测试题实施质量控制,众包标注过程中潜在的随机噪声仍可能未被完全检测,对数据可靠性构成隐忧。
常用场景
经典使用场景
在自然语言处理领域,讽刺检测作为情感分析和观点挖掘的关键分支,常面临跨语言和文化差异的挑战。MultiPICo数据集以其多语言特性与视角主义标注设计,为研究者提供了一个经典的使用场景:通过整合来自Twitter和Reddit的短对话对,结合标注者的人口统计信息,支持基于软标签或硬标签的讽刺分类任务。这一场景不仅促进了模型在多种语言变体中的泛化能力,还强调了标注者多样性对理解讽刺表达微妙差异的重要性,为跨文化语境下的语言理解研究奠定了数据基础。
衍生相关工作
基于MultiPICo数据集,学术界已衍生出多项经典研究工作。例如,研究者利用其分解式标注探索了标注者人口统计特征与讽刺感知之间的关联,推动了视角主义标注范式的进一步理论化。同时,该数据集激发了多任务学习框架的开发,将讽刺检测与语言变体识别相结合,以提升模型在低资源语言上的性能。此外,部分工作聚焦于偏差缓解技术,通过分析标注者多样性数据,设计出更公平的聚合算法,这些成果不仅丰富了计算语言学的方法论,也为后续多语言视角主义数据集的构建提供了重要参考。
数据集最近研究
最新研究方向
在自然语言处理领域,讽刺检测作为情感与立场分析的关键分支,正面临跨文化语境下的理解挑战。MultiPICo数据集以其多语言特性与标注者人口统计信息的细粒度披露,为前沿研究提供了新视角。当前研究聚焦于利用软标签分布建模标注者群体差异,探索社会人口学特征如何影响讽刺感知,从而推动包容性人工智能技术的发展。该数据集与亚马逊Alexa等项目的合作,进一步促进了多语言视角感知自然语言理解模型的创新,旨在减少标注聚合过程中的偏见,提升模型在多元文化背景下的鲁棒性与公平性。
以上内容由遇见数据集搜集并总结生成



