fiction-nonifction-testset-newspaper-embs

Name: fiction-nonifction-testset-newspaper-embs
Creator: Center for Humanities Computing Aarhus
Published: 2026-03-04 20:53:06
License: 暂无描述

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/chcaa/fiction-nonifction-testset-newspaper-embs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1871个训练样本，总大小约84.9MB。每个样本包含以下字段：文章ID（字符串）、文本内容（字符串）、标签（字符串）、专栏ID（字符串）、专栏作者（字符串）、是否连载（布尔值）、子类别（字符串），以及多个浮点数序列字段（memo、oldnews、gemma、jina、bge、e-5）。数据集仅包含训练集，未提供验证或测试集划分。

提供机构：

Center for Humanities Computing Aarhus

创建时间：

2026-03-04

原始信息汇总

数据集概述

基本信息

数据集名称: fiction-nonifction-testset-newspaper-embs
托管平台: Hugging Face Datasets
地址: https://huggingface.co/datasets/chcaa/fiction-nonifction-testset-newspaper-embs

数据集结构与内容

数据格式: 结构化数据，包含多个特征字段。
数据量: 训练集包含 1,871 个样本。
数据大小: 下载大小约为 59.75 MB，数据集总大小约为 84.92 MB。
数据分割: 仅包含一个“train”分割。

特征字段说明

article_id: 文章标识符，字符串类型。
text: 文本内容，字符串类型。
label: 标签，字符串类型。
feuilleton_id: 专栏标识符，字符串类型。
feuilleton_author: 专栏作者，字符串类型。
serialized: 序列化标识，布尔类型。
subcategory: 子类别，字符串类型。
memo: 向量序列，float64类型。
oldnews: 向量序列，float64类型。
gemma: 向量序列，float64类型。
jina: 向量序列，float64类型。
bge: 向量序列，float64类型。
e-5: 向量序列，float64类型。

配置与访问

默认配置: 使用“default”配置。
数据文件: 训练集数据文件路径为 data/train-*。

搜集汇总

数据集介绍

构建方式

该数据集聚焦于新闻文本的虚构与非虚构分类研究，其构建过程体现了对历史文献的深度挖掘与系统整理。数据来源于报纸档案，通过人工标注与自动化处理相结合的方式，对每篇文章进行了细致的类别划分。每篇文本不仅标注了基本的虚构或非虚构标签，还关联了专栏作者、连载状态等元数据，确保了数据来源的透明性与可追溯性。构建过程中，特别注重了文本的代表性与多样性，涵盖了不同的子类别，为后续的文本分析提供了坚实的结构化基础。

使用方法

在自然语言处理与计算语言学领域，该数据集为文本分类、风格分析与表示学习等任务提供了高质量的基准资源。使用者可以直接加载数据集，利用其预计算的嵌入向量进行快速的模型训练或评估，无需额外的特征工程步骤。对于研究虚构与非虚构文本的语义差异，可以结合多种嵌入表示进行对比实验。同时，丰富的元数据支持更细粒度的分析，例如按作者或子类别进行分组研究。该数据集适用于监督学习、无监督聚类以及跨模型性能比较等多种研究场景。

背景与挑战

背景概述

在数字人文与计算语言学领域，文本分类任务长期致力于区分虚构与非虚构内容，这对理解文学风格、新闻传播及历史档案具有深远意义。fiction-nonifction-testset-newspaper-embs数据集应运而生，其创建旨在通过嵌入表示技术，精准识别报纸文本中的虚构与非虚构元素。该数据集由相关研究机构或团队构建，核心研究问题聚焦于利用预训练语言模型的嵌入向量，提升对复杂文本体裁的自动化判别能力，从而推动自然语言处理在媒体分析与文化研究中的应用。

当前挑战

该数据集所解决的领域问题在于文本体裁分类，特别是虚构与非虚构内容的区分，挑战包括处理文本语义的模糊性、风格跨度的多样性，以及历史语言表达的变迁。在构建过程中，挑战涉及从报纸来源中提取高质量标注数据，确保标签的准确性与一致性，同时整合多种嵌入表示（如Gemma、Jina、BGE等），以平衡计算效率与模型性能，并处理序列化与子类别标注的复杂性。

常用场景

经典使用场景

在自然语言处理与文本分类领域，fiction-nonfiction-testset-newspaper-embs数据集为区分虚构与非虚构文本提供了关键资源。该数据集通过标注新闻文章中的虚构内容，如连载小说或专栏，支持模型学习识别文学性叙述与事实报道之间的细微差异。其嵌入向量特征使得研究者能够直接利用预训练表示进行高效的特征提取与对比分析，从而优化文本分类任务的性能。

解决学术问题

该数据集有效应对了文本分类中虚构与非虚构内容界限模糊的学术挑战。通过提供精细的类别标签与多源嵌入表示，它助力解决模型在真实新闻环境中准确识别文学化表达的难题，减少了因文体混合导致的误分类。其意义在于推动了文本风格与内容真实性分析的研究进展，为数字人文与计算语言学提供了可靠的数据基础。

实际应用

在实际应用中，该数据集可服务于新闻媒体平台的内容审核与分类系统。通过自动化识别新闻中的虚构元素，如专栏或连载故事，它能辅助编辑进行内容管理，提升读者阅读体验。同时，在数字图书馆与档案数字化进程中，该数据集支持对历史报刊文献的智能整理与检索，促进文化遗产的高效利用。

数据集最近研究