five

informal_potential_dogwhistles

收藏
Hugging Face2024-09-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/SALT-NLP/informal_potential_dogwhistles
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如内容、子版块、狗哨、日期、内部群体和来源,每个特征的数据类型均为字符串。数据集分为训练集,包含6026919个样本,总大小为1926104999字节。数据集的下载大小为978098068字节。
提供机构:
Social And Language Technology Lab
创建时间:
2024-09-06
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于Reddit评论中的潜在狗哨(dogwhistle)用例,通过关键词搜索从Allen AI狗哨词汇表中提取相关术语。数据收集过程中,研究人员从Reddit的评论中筛选出包含这些术语的文本片段,最终形成了超过600万条潜在狗哨用例的数据集。由于资源限制,研究人员仅从中抽取了10万条实例用于创建Silent Signals数据集,而该数据集则作为扩展Silent Signals的开放资源发布。
特点
该数据集的特点在于其专注于非正式语境中的潜在狗哨用例,涵盖了Reddit评论中的多种狗哨术语及其使用场景。每条数据包含评论内容、所属子论坛、狗哨术语、日期、使用群体以及数据来源等信息。狗哨术语的定义和使用群体信息来源于Allen AI狗哨词汇表,使得数据集在分析狗哨的隐含意义及其社会影响方面具有重要价值。
使用方法
该数据集可用于研究狗哨术语在非正式语境中的使用模式及其潜在的社会影响。研究人员可以通过分析数据集中的评论内容,探索狗哨术语的隐含意义及其在不同群体中的传播方式。此外,该数据集还可用于训练和评估大型语言模型(LLMs),以提升其在狗哨术语的语义消歧任务中的表现。通过结合Silent Signals数据集,研究人员可以进一步扩展对狗哨术语的深入分析。
背景与挑战
背景概述
informal_potential_dogwhistles数据集由Julia Kruk等研究人员于2024年创建,旨在捕捉社交媒体中潜在的狗哨(dog whistle)使用案例。狗哨是一种隐晦的交流方式,通常用于传递特定群体才能理解的次级含义,尤其在种族和社会经济歧视中被广泛使用。该数据集基于Reddit评论,通过关键词搜索从Allen AI Dogwhistle Glossary中提取了超过600万条潜在狗哨术语实例。研究团队利用大型语言模型(LLMs)对这些术语进行了词义消歧,以区分其编码含义与普通用法。该数据集在自然语言处理、仇恨言论检测以及政治学领域具有重要影响力,相关成果发表于ACL 2024。
当前挑战
该数据集面临的主要挑战包括两个方面:其一,狗哨术语的多义性使得区分其编码含义与普通用法极为复杂,尤其是在非正式语境中,许多术语可能被误判为狗哨。其二,数据集的构建过程中,研究人员受限于计算资源,仅能从700万条潜在实例中采样10万条用于分析,这可能导致数据代表性不足。此外,由于狗哨术语的敏感性和潜在冒犯性,数据集的发布和使用需谨慎处理,以避免对用户造成心理不适或引发伦理争议。
常用场景
经典使用场景
在社交媒体分析领域,informal_potential_dogwhistles数据集被广泛应用于识别和分析潜在的狗哨语言。狗哨语言是一种具有双重含义的编码通信方式,常用于种族和社会经济歧视。该数据集通过Reddit评论中的关键词搜索,捕捉了超过600万条潜在的狗哨语言实例,为研究人员提供了丰富的语料库,用于训练和测试自然语言处理模型,特别是大型语言模型(LLMs),以区分标准语言和狗哨语言。
解决学术问题
informal_potential_dogwhistles数据集解决了在社交媒体中识别和分类狗哨语言的学术难题。狗哨语言由于其隐含性和双重含义,常常逃避现有的仇恨言论检测系统。该数据集通过提供大量潜在的狗哨语言实例,帮助研究人员开发更精确的模型,用于区分标准语言和狗哨语言,从而提升仇恨言论检测的准确性和效率。这一研究不仅推动了自然语言处理技术的发展,还为政治学和社会学领域提供了新的研究视角。
衍生相关工作
informal_potential_dogwhistles数据集衍生了一系列相关研究,特别是在自然语言处理和政治学领域。基于该数据集,研究人员开发了多种用于狗哨语言识别的模型和算法,进一步推动了仇恨言论检测技术的发展。此外,该数据集还被用于研究社交媒体中的言论传播模式,揭示了狗哨语言在特定群体中的使用和传播机制,为政治学和社会学领域提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作