政治播客毒性数据集

Name: 政治播客毒性数据集
Creator: 印度理工学院克勒格布尔分校
Published: 2025-01-22 12:58:50
License: 暂无描述

arXiv2025-01-22 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.12640v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由印度理工学院克勒格布尔分校的研究团队创建，旨在分析美国政治播客中的毒性内容。数据集包含31个流行政治播客的转录和对话分析，涵盖了2022-2023年间的音频数据。通过Whisper模型进行转录，并使用Pyannote进行说话人分离，最终生成了8634条毒性对话链。数据集的应用领域包括毒性内容检测、对话结构分析以及实时监控和干预机制的开发，旨在解决播客中的毒性传播问题，促进健康的公共讨论。

This dataset was developed by a research team from the Indian Institute of Technology Kharagpur, with the goal of analyzing toxic content in U.S. political podcasts. It comprises transcriptions and conversational analyses of 31 popular political podcasts, covering audio data collected between 2022 and 2023. Transcriptions were generated using the Whisper model, and speaker diarization was conducted via Pyannote, ultimately producing 8,634 toxic conversation chains. Application domains of this dataset include toxic content detection, conversational structure analysis, and the development of real-time monitoring and intervention mechanisms. The dataset aims to mitigate toxic speech propagation in podcasts and promote healthy public discourse.

提供机构：

印度理工学院克勒格布尔分校

创建时间：

2025-01-22

搜集汇总

数据集介绍

构建方式

政治播客毒性数据集的构建主要依赖于先进的转录模型和对话分析技术。研究团队收集了超过30个美国流行的政治播客，并利用Whisper转录模型将这些播客的音频内容转换为文本。为了确保对话的连贯性，研究团队使用了Pyannote2软件对转录的文本进行说话人分割和识别。通过Google的Perspective API，研究团队在转录的文本中识别了数千个毒性实例。这些数据被组织成对话链，每个对话链包括一个高度毒性的锚段和其前后各十个段，以分析毒性的出现和传播。

特点

政治播客毒性数据集的特点在于其全面性和深度。该数据集涵盖了超过30个美国流行的政治播客，这些播客拥有数百万听众。数据集中的每个播客都被转录和说话人分割，以构建对话链。这些对话链不仅揭示了毒性的普遍存在，而且通过分析其结构和语言属性，揭示了毒性对话的持续时间更长、重复模式更明显、比喻语言更丰富、情感线索更强烈等特点。此外，研究还发现，像“想要”、“喜欢”和“知道”这样的需求相关词汇往往是毒性的先兆。

使用方法

政治播客毒性数据集可以用于研究播客中的毒性动态，以及开发预测模型以预测毒性水平的变化。研究人员可以使用该数据集来分析毒性对话链的结构和语言属性，以及识别对话中的关键变化点。此外，该数据集还可以用于训练和评估自动检测毒性变化点的算法。通过分析这些变化点，研究人员可以了解毒性对话的轨迹，并开发干预策略，以促进更健康的对话。

背景与挑战

背景概述

随着数字媒体的发展，播客作为一种新兴的信息和娱乐媒介，其听众数量迅速增长。然而，播客中的毒性言论问题却鲜有研究关注。为此，Naquee Rizwan等人于2025年1月发表了一篇名为《政治播客毒性动态》的论文，旨在通过分析美国30多个热门政治播客的对话链，研究播客中毒性言论的出现和传播。他们使用先进的转录模型和对话分析技术，对播客内容进行了系统性的分析，并创建了一个包含超过30个美国热门政治播客的转录和语音识别数据集，识别了数千个毒性实例。

当前挑战

政治播客毒性数据集面临的挑战主要包括：1) 播客音频格式的文本分析难度大，转录成本高；2) 播客听众互动性有限，难以直接了解毒性言论如何影响受众；3) 毒性言论的分析需要识别语言，并追踪其随时间的变化；4) 转录错误和内容歧义可能导致分析结果失真。

常用场景

经典使用场景

政治播客毒性数据集被广泛用于研究数字媒体中毒性内容的出现和传播动态。通过对美国30多个热门政治播客的对话链进行分析，该数据集揭示了播客中毒性对话的结构和语言特性，如持续时间更长、重复模式、隐喻语言和与愤怒和烦恼相关的情绪线索。此外，该数据集还用于研究毒性对话链的演变趋势，以及如何通过预测模型来预测毒性水平的变化。这些发现为实时监控和干预机制的设计提供了关键见解，以促进更健康的政治话语。

衍生相关工作

政治播客毒性数据集衍生了多个相关研究工作，包括：首先，通过研究播客中毒性对话链的演变趋势，为理解毒性内容的传播提供了新的视角。其次，通过开发预测模型，实现了对播客中对话毒性水平的实时监控。最后，该数据集还为研究毒性内容对听众的影响提供了重要的数据支持。

数据集最近研究