MAC
收藏Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/Blablablab/MAC
下载链接
链接失效反馈官方服务:
资源简介:
百万作者语料库(Million Authors Corpus,MAC)是一个新颖的数据集,涵盖了来自数十种语言的Wikipedia贡献。该数据集仅包含来自Wikipedia编辑的长且连续的文本块,并将这些文本与其作者关联起来。
提供机构:
Blablablab
创建时间:
2025-05-28
原始信息汇总
数据集概述:Million Authors Corpus (MAC)
基本信息
- 许可证:CC BY-SA 4.0
- 数据来源:Wikipedia编辑内容
数据集描述
- 内容构成:包含来自Wikipedia编辑的长且连续的文本块
- 语言覆盖:涵盖数十种语言
- 关键特征:将文本与其作者关联
数据集特点
- 规模:百万级作者语料库
- 文本类型:专注于长文本片段
- 应用价值:适用于作者分析与多语言研究
搜集汇总
数据集介绍

构建方式
百万作者语料库(MAC)的构建基于维基百科多语言版本的海量编辑数据,采用严格的筛选标准仅保留长且连贯的文本片段。研究团队通过跨语言数据挖掘技术,将文本内容与原始作者信息精准关联,构建起覆盖数十种语言的作者-文本映射体系,为数字人文研究提供了独特的跨文化分析视角。
特点
该数据集最显著的特征在于其多语言覆盖性与作者溯源能力,包含的文本片段均经过连续性筛选以确保语义完整性。不同于传统语料库,MAC创新性地保留了作者元数据,使得研究者能够追踪文本创作源头,为研究数字写作风格、跨文化传播模式提供了前所未有的数据支撑。其开放的CC-BY-SA 4.0协议更促进了学术界的广泛使用。
使用方法
研究人员可通过HuggingFace平台直接加载MAC数据集,其结构化存储格式支持快速查询特定语言或作者的文本样本。该数据集特别适用于计算语言学中的作者归属分析、跨语言风格迁移等任务,使用时需注意遵守知识共享协议要求。对于大规模分析需求,建议采用分布式计算框架处理其百万量级的文本-作者对应关系。
背景与挑战
背景概述
百万作者语料库(Million Authors Corpus, MAC)作为一项突破性的多语言文本资源,由维基百科编辑历史中提取的长连续文本片段构成,并精确关联至原始作者。该数据集由国际研究团队于近年构建,旨在解决数字人文与计算社会科学领域中对大规模作者风格分析的迫切需求。通过整合数十种语言的维基百科编辑数据,MAC为研究者提供了探索跨文化写作模式、作者身份识别及群体协作动态的独特窗口,其多维度的元数据结构显著推动了计算语言学与社会计算研究的范式革新。
当前挑战
构建MAC数据集面临双重核心挑战:在领域问题层面,维基百科多语言文本的异构性导致作者风格特征提取存在显著偏差,匿名编辑与协同写作现象进一步加剧了作者归因的复杂性;在技术实现层面,原始数据的非结构化特性要求开发复杂的文本分块算法,确保长文本片段的语义连贯性,同时需设计跨语言作者标识系统以应对不同语种用户名的编码差异与重复问题,这些挑战对数据清洗与标注流程提出了前所未有的精度要求。
常用场景
经典使用场景
在数字人文与计算社会科学领域,MAC数据集因其独特的跨语言作者标注特性,常被用于大规模作者风格分析研究。该数据集通过整合维基百科上连续的长文本编辑片段及其对应作者信息,为研究者提供了探究不同语言背景下作者写作风格演变的理想实验平台,特别是在多语言作者身份识别任务中展现出独特价值。
解决学术问题
MAC数据集有效解决了传统作者归属研究中跨语言可比性不足的难题。通过涵盖数十种语言的同源文本,该数据集支持学者进行跨文化写作模式分析,为计算语言学中的风格计量学提供了基准数据,显著推进了多语言环境下的数字指纹识别、集体协作模式等前沿课题的研究进程。
衍生相关工作
基于MAC数据集衍生的经典研究包括跨语言作者画像构建、维基百科协作网络分析等方向。国际计算语言学会议(COLING)收录的《多语言作者风格迁移检测》便利用了该数据集的标注体系,另有研究将其与GPT模型结合,探索了大规模协作文本中的风格继承现象。
以上内容由遇见数据集搜集并总结生成



