犯罪相关新闻文章数据集

Name: 犯罪相关新闻文章数据集
Creator: 纽约大学阿布扎比分校
Published: 2025-04-04 23:17:53
License: 暂无描述

arXiv2025-04-04 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.03520v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个犯罪相关新闻文章的集合，由纽约大学阿布扎比分校的研究人员创建，包含了2013年至2023年间五个政治立场不同的新闻机构出版的30000多篇文章。数据集用于研究新闻媒体中的偏见，并支持开发能够检测和减少新闻报道中偏见的人工智能系统。文章内容涵盖了犯罪报道，可以为分析新闻媒体在时间跨度和政治立场方面的偏见变化提供基础。

This dataset is a collection of crime-related news articles created by researchers at New York University Abu Dhabi. It comprises over 30,000 articles published by five news outlets with distinct political stances between 2013 and 2023. The dataset is designed for researching bias in news media, and supports the development of AI systems that can detect and mitigate bias in news coverage. The articles cover crime-related reporting, providing a foundational resource for analyzing shifts in news media bias across both temporal ranges and political orientations.

提供机构：

纽约大学阿布扎比分校

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

该数据集通过系统性地收集2013至2023年间来自五家政治立场多元的美国新闻媒体（包括The Daily Beast、CNN等）的超过30,000篇犯罪相关新闻文章构建而成。数据采集依托互联网档案馆的数字资源，采用JSON结构化存储，并细分为段落级别进行标注。研究团队创新性地采用六种大型语言模型（如GPT-4o、Llama等）进行双阶段处理：先由模型对55万余段落进行三级偏见评分（0-2分），再通过人类专家验证建立基准真值，最终形成兼具时间维度和政治光谱覆盖的语料库。

特点

该数据集的核心价值体现在三个维度：时间跨度上完整捕捉近十年美国社会犯罪报道的演变轨迹；空间维度覆盖全美各州犯罪事件的地域分布特征；内容层面通过精细的段落级偏见标注（包括情感倾向、选择性叙事等语言学特征），特别揭示了少数族裔在犯罪报道中的表征偏差。独特的双标注体系（机器评分+人工验证）确保了数据可靠性，而关联社会事件（如弗洛伊德事件）的时序分析能力，使其成为研究媒体偏见与社会运动关联性的重要资源。

使用方法

使用者可通过分层解析JSON数据结构获取文章元数据（发布时间、作者）及内容要素。典型应用场景包括：1）基于段落偏见评分开展媒体立场分析；2）利用时空标记研究地域性报道差异；3）结合附录提供的标准提示模板，复现或改进AI去偏见算法。建议研究者在模型训练时注意区分原始文本与去偏见版本，并参考论文中的提示工程方案（三个渐进式去偏见提示）进行对比实验。该数据集特别适合计算社会科学、媒体研究和公平性机器学习等跨学科领域。

背景与挑战

背景概述

犯罪相关新闻文章数据集由纽约大学阿布扎比分校的研究团队于2025年创建，旨在通过人工智能技术识别和消除新闻文章中的偏见。该数据集包含2013年至2023年间从五家政治立场各异的新闻媒体收集的超过30,000篇犯罪相关新闻文章。研究团队利用包括GPT-4o、GPT-4o Mini、Gemini Pro、Gemini Flash、Llama 8B和Llama 3B在内的大型语言模型（LLMs），开发了一个两阶段的偏见检测与消除框架。该数据集不仅为媒体偏见研究提供了丰富资源，还推动了新闻透明性和公平性的技术进步。

当前挑战

犯罪相关新闻文章数据集面临的主要挑战包括：1) 领域问题的挑战：新闻偏见具有高度主观性和复杂性，尤其是在犯罪报道中，种族、性别等敏感话题的偏见识别需要极高的语境理解能力；2) 构建过程的挑战：数据收集需平衡政治光谱，确保样本多样性；标注过程需克服人类评估的主观性；模型需在消除偏见的同时保持新闻的原始信息和语境完整性。此外，偏见随社会事件动态变化，要求模型具备持续适应能力。

常用场景

经典使用场景

犯罪相关新闻文章数据集在媒体偏见检测与消除研究中具有重要应用价值。该数据集收录了2013至2023年间来自五家政治立场各异的新闻媒体超过3万篇犯罪报道，为研究者提供了丰富的文本分析素材。通过大型语言模型对新闻段落进行三级偏见评分（0-无偏见，1-中等偏见，2-极端偏见），该数据集能够系统性地识别报道中存在的种族、宗教等群体偏见问题。

衍生相关工作

基于该数据集衍生的经典研究包括：Raza等人开发的DBias偏见检测框架（2024）、Lin等学者构建的IndiTag媒体偏见标注系统（2024），以及Kumar团队关于LLM性别偏见的交叉研究（2024）。这些工作进一步拓展了数据集在政治立场预测、多模态偏见检测等方向的应用，推动了《IEEE社交系统汇刊》等期刊对算法公平性评估标准的建立。

数据集最近研究