tum-nlp/neural_news

Name: tum-nlp/neural_news
Creator: tum-nlp
Published: 2024-07-17 12:28:06
License: 暂无描述

Hugging Face2024-07-17 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/tum-nlp/neural_news

下载链接

链接失效反馈

官方服务：

资源简介：

neural-news是一个基准数据集，设计用于英语、土耳其语、匈牙利语和波斯语的人类/神经网络新闻作者分类。该数据集包含等量的人类撰写和AI生成的新闻文章，提供原始和预处理的数据。数据集由Cem Üyük, Danica Rovó, Shaghayegh Kolli, Rabia Varol, Daryna Dementieva等人策划，包含多种语言，并采用Apache 2.0许可证。数据集结构包括标签、模型、分割、语言、提示、正文、软处理和硬处理等字段，用于开发和评估新闻作者分类器，以及评估包含的零样本和多语言大语言模型的能力。

neural-news is a benchmark dataset designed for human/neural news authorship classification in English, Turkish, Hungarian and Persian. The dataset includes equal parts human-written and AI-generated news articles, raw and pre-processed. Curated by Cem Üyük, Danica Rovó, Shaghayegh Kolli, Rabia Varol, Daryna Dementieva, it supports multiple languages and is licensed under Apache 2.0. The dataset structure includes fields such as label, model, split, language, prompt, body, soft-processed, and hard-processed, aimed at developing and evaluating news authorship classifiers and assessing the capabilities of included zero-shot and multilingual large language models.

提供机构：

tum-nlp

原始信息汇总

Dataset Card for neural-news

概述

neural-news 是一个用于英语、土耳其语、匈牙利语和波斯语中人类/神经新闻作者分类的基准数据集。

数据集详情

语言: 英语、土耳其语、匈牙利语和波斯语
许可证: Apache 2.0
数据集来源:
- 人类撰写的新闻文章：开源数据集 + 波斯语新闻门户（见论文）
- AI生成的新闻文章：包含原始和预处理版本

数据集结构

label: 作者的真实标签
model: 如果标签为 "neural"，则为生成该文章的LLM
split: 分类器的训练/验证/测试集划分，按语言和标签均衡划分，但不按模型划分（例如，GPT4仅在测试集中）
language: 目标语言
prompt: 生成文本时使用的提示，也提供给真实文章以供潜在使用
body: 原始生成/文章，人类撰写的新闻文章已去除HTML语法
soft-processed: 清除人工制品和明显重复，适用于基于Transformer的分类器
hard-processed: 进一步分词、小写化等，适用于基于语言学的分类器

用途

开发和评估新闻作者分类器
评估包含的零样本LLM
评估包含的微调多语言LLM在新语言获取方面的能力（如Bloomz-3B, Llama-2-Chat-7B）

数据集创建

人类撰写的新闻文章: 开源数据集 + 波斯语新闻门户（见论文）

联系信息

数据集卡作者: Danica Rovó
联系邮箱: ge36hor@in.tum.de

搜集汇总

数据集介绍

构建方式

在信息时代背景下，为应对大语言模型生成新闻带来的挑战，neural-news数据集应运而生。该数据集构建过程严谨，其核心在于平衡采集人类撰写与人工智能生成的新闻文本。人类撰写的文章源自开源数据集及波斯语新闻门户网站，经过去除HTML语法等预处理。人工智能生成部分则通过调用包括BloomZ、LLaMa-2、Mistral、Mixtral和GPT-4在内的多种多语言大模型，以零样本或微调方式，依据特定提示词生成对应语言的新闻内容。最终，数据集按语言和作者标签进行均衡分层，划分为训练集、验证集和七个针对不同生成模型的测试集，确保了评估的全面性与公正性。

使用方法

该数据集主要服务于新闻作者身份分类模型的开发与评估。研究者可利用其均衡分层的训练集和验证集，训练监督式分类器，特别是基于Transformer的先进模型。七个独立的测试集，分别对应不同的生成模型，为评估分类器在面对不同AI生成器时的泛化能力提供了结构化框架。此外，数据集也适用于评估所包含大语言模型的零样本分类能力，以及微调后的多语言大模型（如Bloomz-3B、Llama-2-Chat-7B）在新语言上的适应与获取能力。通过对比不同预处理版本上的实验结果，可以深入剖析各类检测方法的内在机理与性能边界。

背景与挑战

背景概述

在信息过载与大型语言模型广泛应用的背景下，虚假信息的泛滥对公共话语与社会福祉构成严峻威胁。2024年，慕尼黑工业大学的研究团队Danica Rovó、Cem Üyük等人创建了neural-news数据集，旨在应对多语言环境中AI生成新闻的检测难题。该数据集涵盖英语、土耳其语、匈牙利语和波斯语，包含等量的人类撰写与AI生成的新闻文本，核心研究聚焦于提升跨语言新闻作者身份分类的准确性与可解释性，为自然语言处理领域提供了重要的基准资源，推动了虚假信息检测技术的国际化发展。

当前挑战

neural-news数据集致力于解决多语言新闻作者身份分类的挑战，尤其在区分人类与AI生成文本时，需克服不同语言语法结构、文化语境差异带来的模型泛化难题。构建过程中，研究人员面临数据收集的复杂性，包括从开源数据集与新闻门户获取高质量人类撰写文章，并确保多语言生成文本在零样本与微调设置下的代表性；同时，处理文本中的HTML语法残留、重复片段等噪声，以及为不同分类器设计软处理与硬处理流程，均增加了数据集构建的技术难度。

常用场景

经典使用场景

在信息时代，随着大型语言模型（LLMs）的广泛应用，AI生成新闻的检测成为维护信息真实性的关键挑战。neural-news数据集通过整合英语、土耳其语、匈牙利语和波斯语四种语言中人类撰写与AI生成的新闻文本，为研究者提供了一个标准化的基准平台。该数据集最经典的使用场景在于开发和评估新闻作者身份分类器，支持从基于语言特征的模型到先进的Transformer架构，乃至零样本LLMs的全面测试，旨在推动跨语言文本检测技术的进步。

解决学术问题

neural-news数据集针对当前学术研究中机器生成文本检测的难题，提供了多语言、多模型生成的均衡样本，有效解决了跨语言文本分类中的数据稀缺问题。它帮助研究者深入探索AI生成内容的可解释性与鲁棒性，特别是在低资源语言如匈牙利语和波斯语中，为检测模型的泛化能力和语言适应性评估提供了实证基础，从而促进了自然语言处理领域在信息可信度与伦理方面的前沿探索。

实际应用

在实际应用中，neural-news数据集为新闻媒体、内容审核平台及教育机构提供了关键工具，以应对日益增长的AI生成新闻带来的信息风险。通过训练和部署基于该数据集的检测模型，机构能够自动化识别虚假或机器生成的新闻内容，增强公众对数字信息的信任度。此外，它在多语言环境中的适用性，支持全球范围内的信息治理，助力构建更健康、透明的网络信息生态系统。

数据集最近研究