five

silent_signals_detection

收藏
Hugging Face2024-09-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/SALT-NLP/silent_signals_detection
下载链接
链接失效反馈
官方服务:
资源简介:
Silent Signals是一个用于评估模型检测、识别和定义'dogwhistle'(一种带有隐含意义的编码通信)能力的人工标注数据集。数据集包含16,550个高置信度的编码示例,适用于仇恨言论检测、新词研究和政治科学等领域。数据集的结构包括多个字段,如'idx'(索引)、'dog_whistle'(狗哨词)、'dog_whistle_root'(狗哨词的根形式)、'ingroup'(使用狗哨词的群体)、'definition'(狗哨词的定义)、'example'(包含狗哨词的文本)和'label'(标记词是否为编码狗哨词)。数据集的来源包括Allen AI Dogwhistle Glossary。
提供机构:
Social And Language Technology Lab
创建时间:
2024-09-14
搜集汇总
数据集介绍
main_image_url
构建方式
Silent Signals数据集的构建基于大规模语言模型(LLMs)的词汇歧义消解技术,旨在识别和定义具有双重含义的隐晦表达(dogwhistles)。研究团队通过LLMs对正式与非正式语境中的隐晦表达进行高置信度标注,生成了包含16,550个样本的数据集。这些样本涵盖了多种隐晦表达形式及其在不同社群中的使用场景,数据来源包括社交媒体和正式文本,确保了数据集的多样性和代表性。
特点
Silent Signals数据集是目前规模最大的隐晦表达消解数据集,具有高度的专业性和应用价值。其特点在于每个样本均包含隐晦表达词、词根形式、使用社群、定义、示例以及标注信息,能够全面反映隐晦表达的多重含义及其语境特征。数据集特别适用于仇恨言论检测、新词研究及政治学分析等领域,为相关研究提供了丰富的数据支持。
使用方法
Silent Signals数据集可通过HuggingFace平台直接下载,适用于自然语言处理模型的训练与评估。用户可通过加载数据集并利用其提供的字段信息(如隐晦表达词、定义、示例等)进行模型开发。数据集支持多种任务,包括隐晦表达检测、语义消解及社群分析等。使用过程中需注意数据集中可能包含令人不适的内容,建议在相关研究中谨慎处理。
背景与挑战
背景概述
Silent Signals Detection数据集由Julia Kruk等人于2024年发布,旨在通过大规模语言模型(LLMs)解决隐语(dogwhistle)的语义消歧问题。隐语是一种具有特定群体隐含意义的编码语言,常用于种族和社会经济歧视。该数据集包含16,550个高置信度的隐语用例,涵盖了正式和非正式语境中的隐语使用。作为目前最大的隐语消歧数据集,Silent Signals在仇恨言论检测、新词研究和政治科学领域具有重要应用价值。该研究在2024年ACL会议上发表,标志着隐语检测技术在自然语言处理领域的突破性进展。
当前挑战
Silent Signals数据集面临的挑战主要体现在两个方面。首先,隐语的检测和消歧本身具有极高的复杂性,因其语义依赖于特定群体的文化背景和语境,难以通过传统语言模型准确捕捉。其次,数据集的构建过程中,研究人员需要处理大量非结构化文本,并确保标注的准确性和一致性。此外,隐语的使用往往具有高度的隐蔽性和多样性,如何在不引入偏见的情况下进行标注和分类,也是构建过程中的一大难题。这些挑战不仅要求模型具备强大的语义理解能力,还需要在数据标注和清洗过程中保持高度的严谨性。
常用场景
经典使用场景
Silent Signals数据集在自然语言处理领域中被广泛用于检测和识别隐晦的种族和社会经济歧视性语言。通过提供大量人工标注的隐晦语言实例,该数据集为研究人员提供了丰富的语料库,用于训练和评估模型在识别隐晦语言方面的能力。特别是在社交媒体和正式文本中,该数据集帮助模型更准确地捕捉那些具有双重含义的词汇和表达。
实际应用
在实际应用中,Silent Signals数据集被广泛用于社交媒体平台的仇恨言论检测系统。通过识别那些具有隐晦含义的词汇和表达,平台能够更有效地过滤和屏蔽潜在的歧视性内容,从而维护社区的健康环境。此外,该数据集还被用于政治学研究中,帮助分析政治言论中的隐晦策略及其对社会的影响。
衍生相关工作
Silent Signals数据集的发布催生了一系列相关研究,特别是在隐晦语言检测和词义消歧领域。基于该数据集,研究人员开发了多种先进的自然语言处理模型,进一步提升了隐晦语言识别的准确性和鲁棒性。此外,该数据集还启发了对隐晦语言传播机制的系统性研究,为理解其在社会和政治语境中的作用提供了新的研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作