gabrielloiseau/million-authors-corpus-en

Name: gabrielloiseau/million-authors-corpus-en
Creator: gabrielloiseau
Published: 2026-01-23 13:11:40
License: 暂无描述

Hugging Face2026-01-23 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/gabrielloiseau/million-authors-corpus-en

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-sa-4.0 language: - en --- English split from the Million Authors Corpus (MAC) ```bibtex @inproceedings{israeli-etal-2025-million, title = "The Million Authors Corpus: A Cross-Lingual and Cross-Domain {W}ikipedia Dataset for Authorship Verification", author = "Israeli, Abraham and Liu, Shuai and May, Jonathan and Jurgens, David", editor = "Che, Wanxiang and Nabende, Joyce and Shutova, Ekaterina and Pilehvar, Mohammad Taher", booktitle = "Findings of the Association for Computational Linguistics: ACL 2025", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.findings-acl.1335/", doi = "10.18653/v1/2025.findings-acl.1335", pages = "25997--26017", ISBN = "979-8-89176-256-5", abstract = "Authorship verification (AV) is a crucial task for applications like identity verification, plagiarism detection, and AI-generated text identification. However, datasets for training and evaluating AV models are primarily in English and primarily in a single domain. This precludes analysis of AV techniques for generalizability and can cause seemingly valid AV solutions to, in fact, rely on topic-based features rather than actual authorship features. To address this limitation, we introduce the Million Authors Corpus (), a novel dataset encompassing contributions from dozens of languages on Wikipedia. It includes only long and contiguous textual chunks taken from Wikipedia edits and links those texts to their authors. includes 60.08M textual chunks, contributed by 1.29M Wikipedia authors. It enables broad-scale cross-lingual and cross-domain AV evaluation to ensure accurate analysis of model capabilities that are not overly optimistic. We provide baseline evaluations using state-of-the-art AV models as well as information retrieval models that are not AV-specific in order to demonstrate `s unique cross-lingual and cross-domain ablation capabilities." } ```

提供机构：

gabrielloiseau

5,000+

优质数据集

54 个

任务类型

进入经典数据集