five

SALT-NLP/silent_signals

收藏
Hugging Face2024-09-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SALT-NLP/silent_signals
下载链接
链接失效反馈
官方服务:
资源简介:
Silent Signals数据集是一个包含在正式和非正式交流中使用的狗哨(dog whistle)术语的案例集合。狗哨是一种编码的交流方式,通常带有隐含的种族和社会经济歧视含义,历史上起源于美国政治,近年来在社交媒体中广泛使用,以规避仇恨言论检测系统并保持合理的否认性。该数据集包含16,550个高置信度的狗哨使用案例,适用于仇恨言论检测、新词研究和政治科学等领域。数据集的字段包括狗哨术语、其根形式、使用群体、包含术语的文本、日期、发言人、国会会议厅、子论坛、数据来源、术语定义、内容类型和政党归属等。

Silent Signals is a dataset of dog whistle use cases in informal and formal discourse. A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. The dataset was developed using an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and contains 16,550 high-confidence coded examples, suitable for applications in hate speech detection, neology, and political science. It includes multiple fields such as dog_whistle, dog_whistle_root, ingroup, etc., each with clear definitions and examples.
提供机构:
SALT-NLP
原始信息汇总

数据集概述

数据集特征

  • dog_whistle: 数据类型为 int64
  • dog_whistle_root: 数据类型为 int64
  • ingroup: 数据类型为 int64
  • content: 数据类型为 int64
  • date: 数据类型为 int64
  • speaker: 数据类型为 int64
  • chamber: 数据类型为 int64
  • subreddit: 数据类型为 int64
  • source: 数据类型为 int64
  • definition: 数据类型为 int64
  • type: 数据类型为 int64
  • party: 数据类型为 int64
  • speech_id: 数据类型为 int64
  • speaker_bioguide: 数据类型为 int64

数据集划分

  • train:
    • 数据大小: 1520624 字节
    • 示例数量: 13577

数据集大小

  • 下载大小: 1065804 字节
  • 数据集大小: 1520624 字节

配置

  • config_name: default
    • data_files:
      • split: train
        • path: data/train-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个关于狗哨(dogwhistle)使用案例的大规模集合,包含16,550个经过消歧的高置信度示例,适用于仇恨言论检测和政治学等研究。数据集结构完整,涵盖了狗哨词汇、使用群体和上下文内容等关键信息。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作