Efstathios/guardian_authorship

Name: Efstathios/guardian_authorship
Creator: Efstathios
Published: 2024-01-18 11:04:28
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Efstathios/guardian_authorship

下载链接

链接失效反馈

官方服务：

资源简介：

GuardianAuthorship数据集是一个用于跨主题和跨体裁作者归属任务的数据集。该数据集由Stamatatos于2013年提供，包含多个配置（如cross_topic_1, cross_genre_1等），每个配置都有训练集、验证集和测试集。数据集的特征包括作者、主题和文章内容。作者和主题都是分类标签，文章内容为字符串类型。数据集的创建基于Stamatatos 2013年的研究，并且提供了跨主题和跨体裁的场景。

The GuardianAuthorship dataset is a specialized dataset designed for cross-topic and cross-genre authorship attribution tasks. Released by Stamatatos in 2013, this dataset includes multiple configurations such as cross_topic_1, cross_genre_1, etc., where each configuration is split into training, validation, and test sets. The dataset's features cover author, topic, and article content: both author and topic are categorical labels, while the article content is of string data type. This dataset is constructed based on Stamatatos' 2013 study and provides cross-topic and cross-genre application scenarios.

提供机构：

Efstathios

原始信息汇总

数据集概述

基本信息

数据集名称: GuardianAuthorship
语言: 英语
许可证: 未知
多语言性: 单语种
数据集大小: 1K<n<10K
源数据: 原始数据
任务类别: 文本分类
任务ID: 多类别分类, 主题分类

配置信息

数据集包含多个配置，每个配置具有不同的特征和分割。以下是各配置的详细信息：

配置列表

cross_topic_1
cross_genre_1
cross_topic_2
cross_topic_3
cross_topic_4
cross_topic_5
cross_topic_6
cross_topic_7
cross_topic_8
cross_topic_9
cross_topic_10
cross_topic_11
cross_topic_12
cross_genre_2
cross_genre_3
cross_genre_4

特征信息

每个配置包含以下特征：

author: 分类标签，包含13个可能的作者名称。
topic: 分类标签，包含5个可能的主题。
article: 字符串特征，表示文章内容。

数据分割

每个配置包含以下分割：

train: 训练集
test: 测试集
validation: 验证集

示例

以下是各配置的示例数据：

cross_topic_1

json { "author": 0, "topic": 1, "article": "File 1a " }

cross_genre_1

json { "author": 0, "topic": 4, "article": "File 1a " }

数据集大小

下载大小: 3100749 bytes
数据集大小: 2334570 bytes（部分配置为2740710 bytes）

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，作者归属识别任务对高质量标注数据的需求日益增长。GuardianAuthorship数据集由Stamatatos于2013年构建，其核心数据源自英国《卫报》专栏文章，涵盖了13位知名作者的文本作品。该数据集通过系统化采集原始文章，并依据主题与体裁两个维度进行精细标注，形成了跨主题与跨体裁的多种实验场景。每个数据实例均包含文章内容、作者标签及主题标签，构建过程注重文本的真实性与标注的一致性，为作者识别研究提供了可靠的基准数据。

使用方法

针对作者归属识别这一核心任务，研究者可通过HuggingFace平台便捷加载该数据集。使用前需指定具体的配置名称，例如'cross_topic_1'或'cross_genre_1'，以获取对应场景下的数据划分。数据集支持直接用于多类文本分类模型的训练与评估，用户可依据文章内容特征预测作者身份。对于相同主题或体裁的实验需求，可通过合并特定配置下的子集并自定义分割比例来实现，但需注意处理数据不平衡问题，以确保分割的有效性。该数据集为探索作者写作风格的稳定性与跨领域泛化能力提供了直接支持。

背景与挑战

背景概述

在自然语言处理领域，作者身份识别是一项具有深远意义的任务，其核心在于通过文本特征推断未知文本的创作者。GuardianAuthorship数据集由Stamatatos于2013年构建，聚焦于跨主题与跨体裁的作者归属问题。该数据集源自英国《卫报》专栏文章，涵盖了十三位知名作者的文本，并标注了政治、社会、英国、世界及书籍五大主题类别。通过精心设计的交叉验证配置，该数据集为研究作者写作风格的稳定性和泛化能力提供了重要基准，推动了计算文体学与文本挖掘领域的交叉发展。

当前挑战

GuardianAuthorship数据集旨在解决跨主题与跨体裁的作者身份识别挑战，其核心难题在于如何剥离主题或体裁对文本特征的干扰，从而准确捕捉作者独特的写作风格。在构建过程中，数据集的创建面临多重挑战：首先，原始文本需从《卫报》专栏中提取并清洗，确保格式统一且内容完整；其次，标注作者与主题类别时需依赖外部信息，可能引入标注偏差；此外，数据规模相对有限，且样本在不同作者与主题间分布不均，增加了模型训练的复杂度。这些因素共同构成了该数据集在应用与拓展中的主要障碍。

常用场景

经典使用场景

在文本挖掘与计算语言学领域，作者身份识别任务旨在通过分析文本的文体特征来推断其作者。GuardianAuthorship数据集作为该领域的经典资源，其最经典的使用场景在于跨主题与跨体裁的作者归属研究。该数据集精心构建了多个交叉配置，如cross_topic与cross_genre，允许研究者在不同话题或体裁条件下评估作者识别模型的稳健性。通过提供十三位《卫报》专栏作者的文章，并标注主题类别，该数据集为探索作者独特的写作风格提供了丰富素材，尤其适用于训练和测试多类别分类模型，以验证模型在复杂真实场景中的泛化能力。

解决学术问题

该数据集有效解决了作者身份识别中的核心学术挑战，即如何剥离主题或体裁干扰，准确捕捉作者的固有文体特征。传统方法常受限于单一领域文本，难以区分风格与内容的影响。GuardianAuthorship通过结构化交叉实验设计，使研究者能够量化模型在未知主题或体裁上的表现，从而推动对作者风格不变性的理论探索。其意义在于为文体计量学提供了标准化评估框架，促进了特征工程与深度学习方法的比较研究，深化了对写作风格本质的理解，并为跨领域文本分析奠定了实证基础。

实际应用

在实际应用层面，GuardianAuthorship数据集为数字取证、学术诚信检测及内容管理提供了关键技术支撑。在司法领域，该数据集训练的模型可辅助匿名文本的作者溯源，为网络犯罪调查提供证据。教育机构则利用其开发系统，以检测学生论文是否存在代写或抄袭行为，维护学术公正。此外，媒体平台可借助此类技术识别虚假账户或自动化生成内容，增强信息可信度。这些应用不仅提升了文本分析的自动化水平，也强化了数字环境中的责任追溯与内容治理能力。

数据集最近研究