five

silent_signals_disambiguation

收藏
Hugging Face2024-09-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/SALT-NLP/silent_signals_disambiguation
下载链接
链接失效反馈
官方服务:
资源简介:
Silent Signals数据集是一个人工标注的狗哨语言使用案例集合,用于评估模型区分狗哨语言与标准语言的能力。该数据集包含16,550个高置信度的狗哨语言示例,适用于仇恨言论检测、新词学和政治科学等应用。数据集的特征包括狗哨词、狗哨词根、使用狗哨语言的群体、定义、包含狗哨语言的文本内容、日期、发言人、议会厅、参考文献、子论坛、数据来源类型和标签等。
提供机构:
Social And Language Technology Lab
创建时间:
2024-09-14
搜集汇总
数据集介绍
main_image_url
构建方式
Silent Signals数据集的构建基于大规模语言模型(LLMs)的词汇歧义消解技术,旨在识别和区分具有隐含意义的‘狗哨’(dogwhistle)词汇与普通用语。研究者通过分析正式与非正式语境中的语言使用,收集了16,550个高置信度的‘狗哨’用例,并结合人工标注进行验证。数据来源包括美国国会演讲记录和Reddit社交媒体评论,确保了数据的多样性和代表性。
特点
该数据集的特点在于其广泛覆盖了正式与非正式语境中的‘狗哨’用例,并提供了详细的元数据,如词汇的根形式、定义、使用群体、语境内容等。此外,数据集还标注了每个用例的标签(‘coded’或‘non-code’),以明确其是否具有隐含意义。这种结构化的设计使其成为研究仇恨言论检测、新词生成和政治科学的重要资源。
使用方法
Silent Signals数据集可用于训练和评估自然语言处理模型,特别是在词汇歧义消解和仇恨言论检测领域。研究者可以通过加载数据集并利用其标注信息,构建分类模型或进行语言分析。此外,数据集还可用于研究‘狗哨’词汇的演变及其在不同语境中的使用模式。使用Hugging Face平台提供的API,用户可以轻松访问和下载数据集,并结合相关工具进行进一步分析。
背景与挑战
背景概述
Silent Signals数据集由Julia Kruk等研究人员于2024年发布,旨在解决编码式语言(dogwhistle)的歧义消解问题。编码式语言是一种具有双重含义的交流方式,通常用于特定群体之间的隐秘沟通,尤其在种族和社会经济歧视中扮演重要角色。该数据集通过大规模语言模型(LLMs)技术,构建了16,550个高置信度的编码式语言用例,涵盖了正式与非正式语境下的使用情况。作为目前最大的编码式语言歧义消解数据集,Silent Signals在仇恨言论检测、新词研究及政治科学领域具有重要影响力。
当前挑战
Silent Signals数据集面临的挑战主要体现在两个方面。首先,编码式语言的歧义消解本身具有高度复杂性,因其依赖于特定文化背景和语境,模型需具备强大的上下文理解能力。其次,数据集的构建过程中,如何从海量文本中准确识别并标注编码式语言用例,同时避免误判和遗漏,是一项极具挑战的任务。此外,数据集中包含的敏感内容可能对部分读者造成不适,这也对数据的使用和传播提出了伦理和道德上的要求。
常用场景
经典使用场景
在自然语言处理领域,Silent Signals数据集被广泛应用于评估模型在识别和区分隐晦语言(dogwhistle)与普通语言的能力。通过提供大量经过人工标注的隐晦语言用例,该数据集为研究人员提供了一个标准化的测试平台,用于验证模型在处理复杂语义时的表现。特别是在社交媒体和政治言论分析中,该数据集帮助模型识别那些具有潜在歧视性或煽动性的语言,从而提升内容审核系统的准确性。
解决学术问题
Silent Signals数据集解决了自然语言处理中一个重要的学术问题,即如何有效区分隐晦语言与普通语言。隐晦语言通常具有双重含义,容易被用于传播歧视性信息或逃避内容审核。通过提供大量标注数据,该数据集为研究人员提供了工具,用于开发更精确的语言模型,从而在仇恨言论检测、政治科学和新词研究等领域取得突破。这一成果不仅推动了语言模型的发展,还为理解语言在社会中的复杂作用提供了新的视角。
衍生相关工作
基于Silent Signals数据集,许多相关研究工作得以展开。例如,研究人员利用该数据集开发了更先进的隐晦语言检测模型,这些模型在社交媒体和政治言论分析中表现出色。此外,该数据集还催生了一系列关于语言与社会互动的研究,探讨隐晦语言如何影响公众舆论和社会行为。这些工作不仅扩展了数据集的应用范围,还为语言学和计算社会科学领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作