swan07/authorship-verification

Name: swan07/authorship-verification
Creator: swan07
Published: 2024-06-26 20:47:08
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/swan07/authorship-verification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由12个经过清理和修改的开源作者验证和归属数据集组成，包括Reuters50、The Blog Authorship Corpus、Victorian、arXiv、DarkReddit、British Academic Written English (BAWE)、IMDB62、PAN11、PAN13、PAN14、PAN15和PAN20。这些数据集被清理后，命名实体被替换为它们的通用类型（除了PAN14、PAN15和PAN20），并重新结构化为包含|text1|text2|same|列的数据框，其中same列的值为0表示两个文本的作者不同，值为1表示作者相同。数据集被分为训练集、测试集和验证集，如果原始数据集提供了分割方式，则保留原始分割方式，否则使用0.7:0.15:0.15的比例进行分割。

The dataset is composed of 12 cleaned, modified, open source authorship verification and attribution datasets, including Reuters50, The Blog Authorship Corpus, Victorian, arXiv, DarkReddit, British Academic Written English (BAWE), IMDB62, PAN11, PAN13, PAN14, PAN15, and PAN20. These datasets were cleaned, with named entities replaced by their general types (except for PAN14, PAN15, and PAN20), and restructured into dataframes with columns |text1|text2|same|, where a value of 0 in the same column indicates that the two texts have different authors, while a value of 1 indicates that the two texts have the same author. The datasets were split into train/test/verification sets, retaining the original splits if provided, otherwise using a 0.7:0.15:0.15 split ratio.

提供机构：

swan07

原始信息汇总

数据集概述

基本信息

许可证: CC BY-NC-2.0
任务类别: 文本分类
语言: 英语

数据集详情

数据集名称: 未明确提及，用于作者验证的数据集。
数据集组成: 由12个经过清理和修改的开源作者验证和归属数据集组成。

数据集列表

Reuters50
- 作者: Liu, Zhi
- 年份: 2011
- 来源: UCI Machine Learning Repository
- 许可证: CC BY 4.0
The Blog Authorship Corpus
- 作者: J. Schler, M. Koppel, S. Argamon, J. Pennebaker
- 年份: 2006
- 来源: 2006 AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs
- 许可证: 非商业研究用途
Victorian
- 作者: Gungor, Abdulmecit
- 年份: 2018
- 来源: UCI Machine Learning Repository
- 许可证: CC BY 4.0
arXiv
- 作者: Moreo, Alejandro
- 年份: 2022
- 来源: Zenodo
- 许可证: CC BY 4.0
DarkReddit
- 作者: Andrei Manolache, Florin Brad, Elena Burceanu, Antonio Barbalau, Radu Tudor Ionescu, Marius Popescu
- 年份: 2021
- 来源: arXiv
- 许可证: 未披露
British Academic Written English (BAWE)
- 作者: Nesi, Hilary, Gardner, Sheena, Thompson, Paul, Wickens, Paul
- 年份: 2008
- 来源: Oxford Text Archive
- 许可证: CC BY-NC-SA 3.0
IMDB62
- 作者: Seroussi, Yanir, Zukerman, Ingrid, Bohnert, Fabian
- 年份: 2014
- 来源: Computational Linguistics
- 许可证: 未披露
PAN11
- 作者: Argamon, Shlomo, Juola, Patrick
- 年份: 2011
- 来源: Zenodo
- 许可证: 未披露
PAN13
- 作者: Juola, Patrick, Stamatatos, Efstathios
- 年份: 2013
- 来源: Zenodo
- 许可证: 未披露
PAN14
- 作者: Stamatatos, Efstathios, Daelemans, Walter, Verhoeven, Ben, Potthast, Martin, Stein, Benno, Juola, Patrick, A. Sanchez-Perez, Miguel, Barrón-Cedeño, Alberto
- 年份: 2014
- 来源: Zenodo
- 许可证: 未披露
PAN15
- 作者: Stamatatos, Efstathios, Daelemans, Walter, Verhoeven, Ben, Juola, Patrick, López-López, Aurelio, Potthast, Martin, Stein, Benno
- 年份: 2015
- 来源: Zenodo
- 许可证: 未披露
PAN20
- 作者: Sebastian Bischoff, Niklas Deckers, Marcel Schliebs, Ben Thies, Matthias Hagen, Efstathios Stamatatos, Benno Stein, Martin Potthast
- 年份: 2020
- 来源: arXiv
- 许可证: 未披露

数据处理

清理和修改: 代码可在https://github.com/swan-07/authorship-verification/blob/main/Authorship_Verification_Datasets.ipynb找到。
命名实体替换: 除PAN14、PAN15和PAN20外，所有数据集中的命名实体被替换为其通用类型。
数据结构: 数据集被重构为数据框，包含列|text1|text2|same|，其中same列的值为0表示两个文本的作者不同，值为1表示两个文本的作者相同。
数据分割: 所有数据集被分割为训练/测试/验证集，保持原有分割（如有），否则使用0.7:0.15:0.15的比例分割。

搜集汇总

数据集介绍

构建方式

在作者身份验证研究领域，构建高质量数据集是推动算法发展的基石。该数据集通过整合12个公开可用的作者身份验证与归属数据集，包括Reuters50、Blog Authorship Corpus、Victorian Era、arXiv、DarkReddit、BAWE、IMDB62以及PAN系列（11-20）等，形成了一个综合性的语料库。构建过程中，对原始数据进行了系统清洗与标准化处理，例如将命名实体替换为通用类别以保护隐私并减少偏差，同时统一重组为包含text1、text2和same三列的结构化数据框架，其中same列以二进制标签指示文本对是否源自同一作者。数据划分遵循原始数据集的预设分割或采用0.7:0.15:0.15的比例进行训练、测试与验证集分配，确保了数据使用的科学性与可复现性。

特点

该数据集在作者身份验证任务中展现出鲜明的跨领域与多样性特征。其语料来源广泛，涵盖了新闻稿件、学术论文、博客文章、社交媒体内容及文学作品等多种文体与领域，为模型训练提供了丰富的语言风格和主题背景。数据集的结构设计注重实用性，以成对文本比较的形式呈现，直接对应二分类验证任务，简化了预处理流程。此外，通过保留部分数据集的原始分割策略，该数据集支持跨领域评估与领域自适应研究，有助于考察模型在未知领域中的泛化能力，为作者身份验证技术的稳健性提供了重要基准。

使用方法

对于研究者而言，该数据集为开发与评估作者身份验证模型提供了便捷的起点。用户可直接加载结构化数据，利用text1和text2列作为模型输入，same列作为监督标签，进行二分类模型的训练与优化。数据集已预先划分为训练、测试和验证子集，建议遵循此划分以保障评估结果的可比性。在具体应用中，可结合深度学习模型如BERT等Transformer架构，提取文本的深层风格特征；亦可用于传统机器学习方法，探索词汇、句法等表层特征的有效性。使用前需注意各子数据集的许可协议，确保符合非商业研究等用途规定，以促进学术研究的合规性与开放性。

背景与挑战

背景概述

作者身份验证作为计算语言学与数字取证交叉领域的关键课题，旨在通过文本分析技术判别匿名或争议文本的真实作者归属。swan07/authorship-verification数据集由研究者在近年整合构建，其核心研究问题聚焦于跨领域、多风格的文本作者身份判别。该数据集融合了Reuters50、Blog Authorship Corpus、Victorian、arXiv、DarkReddit等十二个开源子集，涵盖新闻、学术论文、社交媒体、文学著作等多种文本类型，为作者身份验证模型提供了丰富的跨域评估基准。通过统一清洗与重构，数据集将原始文本转化为标准化对比格式，显著推动了作者识别领域从单一领域分析向泛化能力研究的范式转移，对自然语言处理与信息安全领域产生了深远影响。

当前挑战

作者身份验证领域长期面临文本风格混淆与领域迁移的固有难题，不同作者的写作习惯可能因主题、文体或时代背景而产生重叠，而同一作者在不同语境下的表达风格亦可能存在显著变异，这导致模型难以捕捉稳定的作者特征。在数据集构建过程中，研究者需克服多源数据异构性带来的整合挑战，包括文本格式、语言特征与标注标准的差异；同时，为保护隐私与遵守伦理规范，需对原始文本中的命名实体进行泛化替换，但此举可能削弱部分作者特有的表达线索。此外，部分子集的许可协议限制为非商业用途，影响了数据集的广泛应用潜力，而跨领域数据的分割策略亦需精心设计，以确保评估结果的可靠性与泛化性。

常用场景

经典使用场景

在数字文本分析领域，作者身份验证任务旨在通过计算模型识别文本的原创归属。swan07/authorship-verification数据集整合了多个开放源数据集，为研究者提供了跨领域、多风格的文本对，其经典使用场景集中于训练和评估机器学习模型，以判断两段文本是否出自同一作者之手。该数据集通过统一的预处理和结构化格式，支持模型在多样化的写作风格和主题上进行泛化能力测试，成为验证算法鲁棒性的基准平台。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作。例如，Manolache等人提出的基于BERT类Transformer的知识迁移方法，显著提升了跨领域作者验证的准确率；PAN系列评测任务（如PAN2020）利用其子集设定了标准化的验证挑战，推动了多团队协作与算法创新。这些工作不仅深化了对写作风格建模的理论理解，还催生了如Dupin等开源工具，促进了整个领域的算法进步和资源共享。

数据集最近研究