formal_potential_dogwhistles
收藏Hugging Face2024-09-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/SALT-NLP/formal_potential_dogwhistles
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如日期、发言人、议会厅、参考文献、来源、党派、内容、狗哨政治、内群体等。每个特征都有其特定的数据类型。数据集分为训练集,包含1096682个样本,总大小为459187984字节。数据集的下载大小为139663768字节。
提供机构:
Social And Language Technology Lab
创建时间:
2024-09-06
搜集汇总
数据集介绍

构建方式
该数据集通过关键词搜索从美国国会记录中提取了超过100万条包含潜在狗哨术语的文本片段,这些术语来源于Allen AI狗哨术语表。尽管这些术语可能以非编码形式使用,但数据集为后续的语义消歧提供了基础。由于资源限制,仅从700万条潜在实例中抽取了10万条样本,形成了Silent Signals数据集的核心。
特点
数据集涵盖了美国国会记录中的大量文本片段,每个片段均标注了狗哨术语、使用该术语的群体、文本内容、日期、发言人、国会议院、数据来源、政党归属及国会记录引用码。这些特征使得数据集在分析政治话语中的隐含意义时具有重要价值,尤其适用于研究种族和社会经济歧视的编码表达。
使用方法
该数据集可用于训练和评估大型语言模型,以区分狗哨术语的标准用法与隐含意义。研究人员可通过分析文本片段中的狗哨术语及其上下文,探索其在正式和非正式交流中的使用模式。此外,数据集还可用于扩展Silent Signals数据集,进一步推动仇恨言论检测、新词研究及政治学领域的应用。
背景与挑战
背景概述
Formal Potential Dogwhistles数据集由Julia Kruk等研究人员于2024年发布,旨在捕捉正式话语中的潜在狗哨(dogwhistle)现象。狗哨是一种具有双重含义的编码语言,通常用于特定群体之间的隐秘交流,尤其在政治和社会媒体中被用作规避仇恨言论检测的工具。该数据集基于美国国会记录,通过关键词搜索从Allen AI狗哨词汇表中提取了超过100万条潜在狗哨实例,并利用大型语言模型(LLMs)进行词义消歧。该研究在ACL 2024会议上发表,为政治学、仇恨言论检测及新词研究提供了重要的数据支持。
当前挑战
该数据集面临的主要挑战包括:1)词义消歧的复杂性,狗哨术语在正式语境中可能具有多重含义,区分其编码意义与常规用法需要高精度的自然语言处理技术;2)数据标注的主观性,狗哨的使用往往依赖于上下文和特定群体的文化背景,标注过程中可能存在偏差;3)资源限制,尽管原始数据包含700万条潜在实例,但由于计算资源限制,仅从中抽取了10万条用于构建数据集,这可能影响模型的泛化能力。此外,数据集中的内容可能涉及敏感或冒犯性语言,需谨慎处理。
常用场景
经典使用场景
在政治学和计算社会科学领域,formal_potential_dogwhistles数据集被广泛用于研究编码语言的使用模式及其对社会的影响。通过分析美国国会记录中的潜在狗哨术语,研究者能够深入探讨这些术语在不同政治背景下的使用频率和语境,进而揭示其背后的社会和政治动机。
实际应用
在实际应用中,formal_potential_dogwhistles数据集被用于开发自动化工具,以监测和识别公共演讲和社交媒体中的潜在歧视性语言。这些工具可以帮助政策制定者和社交媒体平台更有效地识别和应对潜在的仇恨言论,从而维护公共话语的公正性和包容性。
衍生相关工作
基于该数据集的研究成果,衍生出了一系列关于编码语言识别和分类的经典工作。例如,利用大型语言模型进行词义消歧的研究,以及开发用于检测和分类狗哨术语的自动化系统。这些工作不仅扩展了数据集的应用范围,还为相关领域的研究提供了新的方法和工具。
以上内容由遇见数据集搜集并总结生成



