Chinese News Framing dataset
收藏arXiv2025-03-06 更新2025-03-08 收录
下载链接:
https://doi.org/10.5281/zenodo.14659362
下载链接
链接失效反馈官方服务:
资源简介:
中文新闻报道框架数据集(Chinese News Framing dataset)是由谢菲尔德大学计算机科学学院创建的,该数据集是首个专注于中文新闻框架检测的自动检测数据集。它包含了从13个不同国家的网站收集的约30万篇中文新闻文章,经过精心挑选和标注,用于分析不同类型中文媒体话语中的框架模式。数据集涵盖了从2020年至2024年底发布的新闻,包括全球讨论的各种事件,如COVID-19疫苗、巴以冲突、俄乌战争和美国大选等。数据集通过BERTopic进行主题标注,然后根据主题与新闻框架类别的相似度进行分层抽样和标注,以用于新闻框架检测的多标签多类别分类任务。
The Chinese News Framing dataset was created by the School of Computer Science at the University of Sheffield, and it is the first automated dataset dedicated to Chinese news framing detection. It comprises approximately 300,000 Chinese news articles collected from websites across 13 distinct countries, which have been carefully curated and annotated to analyze framing patterns in the discourse of various Chinese media outlets. The dataset covers news published from 2020 to the end of 2024, encompassing a wide range of globally discussed events including COVID-19 vaccines, the Israel-Hamas conflict, the Russia-Ukraine war, and the U.S. presidential election. For the annotation process, BERTopic is first used to perform topic labeling, followed by stratified sampling and annotation based on the similarity between topics and news framing categories, to support multi-label and multi-class classification tasks for news framing detection.
提供机构:
谢菲尔德大学计算机科学学院
创建时间:
2025-03-06
搜集汇总
数据集介绍

构建方式
Chinese News Framing dataset的构建始于数据收集,研究者从13个不同国家的新闻网站收集了约30万篇中文新闻文章。随后,通过对文章的主题进行采样,选择了一个代表性的子集进行标注。标注过程采用了开放源码的数据标注工具GATE Teamware,并由6名母语为中文的研究生进行标注。标注完成后,高级标注员对标注结果进行了审查和裁决,确保了标注质量。最终,数据集被分为训练集、开发集和测试集,为新闻框架检测任务提供了宝贵的资源。
特点
Chinese News Framing dataset的特点在于其专注于中文新闻框架的检测,填补了现有数据集中中文内容的空白。该数据集包含了14个通用的框架维度,涵盖了经济、资源、道德、公平、法律、政策、犯罪、安全、健康、生活质量、文化身份、公众舆论、政治和外部监管等多个方面。此外,数据集还包含了丰富的元数据,如标注者的可靠性评分,为未来的研究提供了更多的可能性。
使用方法
Chinese News Framing dataset的使用方法多样。首先,可以作为一个独立的数据集,用于训练和评估中文新闻框架检测模型。其次,可以与SemEval2023任务3数据集结合使用,以增强模型的泛化能力。此外,数据集还提供了丰富的元数据,如标注者的可靠性评分,可用于研究标注过程中的不确定性和主观性。
背景与挑战
背景概述
新闻框架在新闻报导中扮演着至关重要的角色,它允许作者影响公众对当前事件的看法。虽然已有多种语言的自动新闻框架检测数据集,但尚无专注于中文媒体中新闻框架的数据集,而中文因其复杂的字符意义和独特的语言特征,对新闻框架的研究更具挑战性。本研究首次引入了中文新闻框架数据集,旨在作为独立数据集或SemEval2023任务3数据集的补充资源。该数据集的创建为研究自动检测中文新闻框架提供了重要的资源,并通过基准实验展示了其重要性,为未来的研究提供了基准。
当前挑战
中文新闻框架数据集面临的挑战主要包括:1)解决领域问题,即自动检测中文新闻框架的挑战;2)构建过程中遇到的挑战,包括数据收集、数据抽样和标注过程中的技术问题和主观性。此外,由于中文缺乏明确的词边界和复杂的字符意义和关系,因此在构建过程中需要克服这些独特的语言特征带来的挑战。
常用场景
经典使用场景
该数据集主要用于分析中文新闻中的框架构建,即新闻编写者如何通过选择性地强调某些事件方面来塑造公众对当前事件的看法。通过对新闻文本的框架进行自动检测,可以理解媒体偏见、在信息检索阶段提供平衡的新闻框架、自动化大规模内容分析以及检测虚假信息。该数据集可独立使用,也可作为SemEval2023任务3数据集的补充资源。
实际应用
该数据集在实际应用中具有广泛的应用前景。它可以用于监测媒体偏见,帮助新闻机构提供更客观、平衡的报道。同时,它还可以用于自动化大规模内容分析,帮助研究人员快速了解公众对特定议题的看法和态度。此外,该数据集还可以用于检测虚假信息,提高公众对新闻信息的辨别能力。
衍生相关工作
该数据集的发布为相关领域的研究工作提供了新的思路和方向。基于该数据集,研究人员可以进一步探索中文新闻框架检测的技术和方法,提高模型性能。此外,该数据集还可以与其他语言的数据集进行对比分析,揭示不同语言新闻框架的异同点,为跨文化新闻传播研究提供新的视角。
以上内容由遇见数据集搜集并总结生成



