SALT-NLP/silent_signals
收藏Hugging Face2024-09-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SALT-NLP/silent_signals
下载链接
链接失效反馈官方服务:
资源简介:
Silent Signals数据集是一个包含在正式和非正式交流中使用的狗哨(dog whistle)术语的案例集合。狗哨是一种编码的交流方式,通常带有隐含的种族和社会经济歧视含义,历史上起源于美国政治,近年来在社交媒体中广泛使用,以规避仇恨言论检测系统并保持合理的否认性。该数据集包含16,550个高置信度的狗哨使用案例,适用于仇恨言论检测、新词研究和政治科学等领域。数据集的字段包括狗哨术语、其根形式、使用群体、包含术语的文本、日期、发言人、国会会议厅、子论坛、数据来源、术语定义、内容类型和政党归属等。
Silent Signals is a dataset of dog whistle use cases in informal and formal discourse. A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. The dataset was developed using an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and contains 16,550 high-confidence coded examples, suitable for applications in hate speech detection, neology, and political science. It includes multiple fields such as dog_whistle, dog_whistle_root, ingroup, etc., each with clear definitions and examples.
提供机构:
SALT-NLP
原始信息汇总
数据集概述
数据集特征
- dog_whistle: 数据类型为 int64
- dog_whistle_root: 数据类型为 int64
- ingroup: 数据类型为 int64
- content: 数据类型为 int64
- date: 数据类型为 int64
- speaker: 数据类型为 int64
- chamber: 数据类型为 int64
- subreddit: 数据类型为 int64
- source: 数据类型为 int64
- definition: 数据类型为 int64
- type: 数据类型为 int64
- party: 数据类型为 int64
- speech_id: 数据类型为 int64
- speaker_bioguide: 数据类型为 int64
数据集划分
- train:
- 数据大小: 1520624 字节
- 示例数量: 13577
数据集大小
- 下载大小: 1065804 字节
- 数据集大小: 1520624 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- split: train
- data_files:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个关于狗哨(dogwhistle)使用案例的大规模集合,包含16,550个经过消歧的高置信度示例,适用于仇恨言论检测和政治学等研究。数据集结构完整,涵盖了狗哨词汇、使用群体和上下文内容等关键信息。
以上内容由遇见数据集搜集并总结生成



