新闻文章数据集
收藏arXiv2024-12-20 更新2024-12-24 收录
下载链接:
http://arxiv.org/abs/2412.15896v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由340篇新闻文章组成,旨在评估意大利新闻媒体市场中新闻出版物的可靠性。每篇文章由两个人类专家和一个大型语言模型(LLM)进行标注,涵盖六个不同的可靠性标准,总计6,120个标注。数据集的创建过程包括选择和实施质量标准,收集代表性样本,并由专家和LLM进行评估。该数据集主要应用于新闻出版物可靠性评估,旨在通过自动化方法提高评估效率和准确性。
This dataset comprises 340 news articles developed to evaluate the reliability of news publications in the Italian news media market. Each article was annotated by two human experts and one large language model (LLM) across six distinct reliability criteria, resulting in a total of 6,120 annotations. The dataset creation process includes selecting and implementing quality standards, collecting representative samples, and conducting evaluations by experts and the LLM. This dataset is primarily applied to news publication reliability assessment, aiming to improve the efficiency and accuracy of evaluations via automated methods.
提供机构:
IIT-CNR, Pisa 和 IMT School for Advanced Studies Lucca
创建时间:
2024-12-20
搜集汇总
数据集介绍

构建方式
新闻文章数据集的构建基于意大利新闻媒体市场的代表性样本,涵盖了34家新闻出版商,共收集了340篇新闻文章。这些文章的收集时间跨度为2021年4月至10月,确保了数据的时间分布与先前研究一致。数据集的构建过程包括使用Selenium库自动抓取新闻文章的URL,通过GNU Wget命令下载HTML页面,并利用XPATH查询提取文章的标题和正文内容。每篇文章均由三名经验丰富的人类注释者和一个大语言模型(LLM)进行注释,针对6个新闻质量标准进行评估,总计生成了6,120个注释。
特点
该数据集的特点在于其多层次的注释结构,每篇文章不仅由人类专家进行双重注释,还通过大语言模型进行自动注释,确保了数据的多维度评估。数据集涵盖了6个关键的新闻质量标准,包括标题准确性、导语存在性、负面指向性、文章偏见、煽动性语言等,这些标准广泛应用于新闻出版商的可靠性评估。此外,数据集还提供了人类注释者与LLM注释者之间的注释一致性分析,为自动化评估提供了基准。
使用方法
该数据集可用于评估大语言模型在新闻质量标准评估中的表现,通过比较LLM与人类专家的注释结果,研究者可以分析模型在不同标准下的准确性和一致性。数据集还可用于训练和验证新闻质量评估模型,特别是在自动化新闻出版商可靠性评估的场景中。此外,数据集的注释结果可用于研究人类注释者之间的分歧,并探索LLM在解决这些分歧中的潜在作用。研究者可以通过分析数据集中的注释差异,进一步优化模型的提示设计和注释流程。
背景与挑战
背景概述
新闻文章数据集由Manuel Pratelli、John Bianchi、Fabio Pinelli和Marinella Petrocchi等人创建,旨在通过大型语言模型(LLMs)评估在线新闻出版商的可靠性。该数据集包含340篇新闻文章,每篇文章由两位人类专家和LLM进行标注,涵盖六个评估标准,总计6,120个标注。该研究的主要目标是解决传统新闻媒体系统衰落和编辑控制困难导致的在线新闻质量问题。通过自动化评估流程,该数据集为新闻出版商的可靠性评估提供了新的方法,特别是在资源受限的环境中,自动化评估能够显著提高效率和可扩展性。
当前挑战
新闻文章数据集面临的挑战主要集中在两个方面:一是如何定义高质量的提示(prompts)以确保LLMs能够准确评估新闻出版商的可靠性标准;二是LLMs在评估过程中与人类专家标注的一致性问题。具体挑战包括:1) 定义有效的提示以帮助LLMs正确评估新闻质量标准,如检测偏见和耸人听闻的语言;2) LLMs在处理复杂文本时的局限性,尤其是在识别偏见和情感化语言方面,可能存在过度敏感或误判的情况;3) 在构建过程中,如何确保LLMs的标注与人类专家的标注高度一致,尤其是在处理人类专家之间存在分歧的情况下。
常用场景
经典使用场景
新闻文章数据集的经典使用场景主要集中在新闻内容的可靠性评估上。该数据集通过收集和标注340篇新闻文章,结合大型语言模型(LLM)与人类专家的评估结果,旨在自动化评估新闻出版物的可靠性。具体而言,数据集用于评估新闻文章在六个关键标准上的表现,包括标题准确性、导语存在性、负面指向性、文章偏见、煽动性语言等。通过比较LLM与人类专家的评估结果,研究者能够探索自动化评估新闻内容质量的可行性。
衍生相关工作
基于新闻文章数据集的研究,衍生了许多相关工作。例如,一些研究探索了如何通过LLM自动化评估新闻出版物的可靠性,特别是在多语言环境下的应用。此外,还有研究关注如何通过改进提示设计(prompt engineering)来提高LLM在新闻内容分析中的表现。这些衍生工作不仅扩展了数据集的应用范围,还为新闻内容分析领域的自动化评估提供了新的方法和工具。
数据集最近研究
最新研究方向
新闻文章数据集的最新研究方向主要集中在利用大型语言模型(LLMs)自动化评估新闻出版物的可靠性。研究通过设计高质量的提示(prompts),使LLMs能够有效评估新闻文章的多个质量标准,如标题准确性、文章偏见和煽动性语言等。该研究不仅展示了LLMs在识别负面目标和事实性摘要方面的良好表现,还探讨了其在解决人类专家之间分歧方面的潜力。此外,自动化评估方法的引入为资源受限环境下的新闻出版物可靠性评估提供了可扩展的解决方案,同时也增强了读者对所消费新闻内容的实时意识。
相关研究论文
- 1Evaluation of Reliability Criteria for News Publishers with Large Language ModelsIIT-CNR, Pisa 和 IMT School for Advanced Studies Lucca · 2024年
以上内容由遇见数据集搜集并总结生成



