human-ai-parallel-corpus-2

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/browndw/human-ai-parallel-corpus-2

下载链接

链接失效反馈

官方服务：

资源简介：

HAP-E-2语料库是原始HAP-E语料库的扩展版本，旨在比较人类作者与大型语言模型(LLM)生成的文本。该语料库包含6种文本类型(学术、新闻、小说、口语、博客、影视剧本)，每种类型包含约2000个样本。每个样本由约1000字的人类文本分割成两个500字左右的段落(chunk_1和chunk_2)，其中chunk_1用于提示LLM生成后续500字文本。经过质量过滤后，最终包含8,290个有效文本对。语料库设计参考了当代美国英语语料库(COCA)的组成结构，但调整为6种文本类型。数据来源包括Elsevier学术文章、美国新闻机构报道、古登堡计划小说、播客转录、博客文章以及影视剧本。该语料库适用于文本风格比较、模型拟合、分类等自然语言处理任务。

The HAP-E-2 corpus is an extended version of the original HAP-E corpus, designed to compare texts written by human authors and those generated by Large Language Models (LLMs). This corpus covers 6 text genres: academic, news, fiction, spoken language, blogs, and film/TV scripts, with approximately 2,000 samples per genre. Each sample is derived from a ~1,000-word human-written text split into two ~500-word chunks (chunk_1 and chunk_2), where chunk_1 is used as a prompt for the LLM to generate the subsequent 500-word text. After quality filtering, the final corpus contains 8,290 valid text pairs. The design of the corpus references the compositional structure of the Corpus of Contemporary American English (COCA), but is adjusted to feature the 6 aforementioned text genres. The data sources include Elsevier academic articles, reports from U.S. news outlets, fiction from Project Gutenberg, podcast transcripts, blog posts, and film/TV scripts. This corpus is applicable to natural language processing tasks such as text style comparison, model fitting, and text classification.

创建时间：

2026-01-25

原始信息汇总

Human-AI Parallel English Corpus-2 (HAP-E-2) 数据集概述

数据集基本信息

数据集名称: Human-AI Parallel English Corpus-2 (HAP-E-2)
数据集地址: https://huggingface.co/datasets/browndw/human-ai-parallel-corpus-2
许可证: MIT
任务类别: 文本分类
语言: 英语

数据集目的

HAP-E-2 语料库是原始 HAP-E 语料库的扩展，增加了更新的模型。该数据集旨在比较人类写作与大语言模型写作。

数据构建方法

向大语言模型提供一段约500词的人类撰写文本块，然后提示模型生成额外的500词。
原始文本中实际后续的第二个500词人类撰写文本块可以与LLM生成的文本进行比较。
大多数比较、模型拟合、分类等操作应排除人类文本块1数据，因为这些数据用于提示LLM，不应被视为平行数据的一部分。提供文本块1是为了方便查询其他/新的大语言模型，并可能进行重要的完整性检查。

语料库构成

文本类型

语料库旨在近似模拟《当代美国英语语料库》的构成，但包含6种文本类型：

学术: 样本来自Elsevier出版的40,000多篇开放获取学术文章语料库。
新闻: 样本来自美国新闻机构在线发布的100,000多篇新闻文章语料库。
小说: 样本来自古登堡计划中公有领域的公开小说和短篇故事。
口语: 样本来自100,000个播客转录语料库。
博客: 样本来自blogger.com的681,288篇帖子语料库。
电视和电影剧本: 样本来自2个不同的剧本语料库，部分通过OCR转换。

人类生成文本

从6种文本类型中各收集2000个样本，创建了包含12,000个文本的原始语料库。从每个文本中提取前约1000个词，条件是这1000词的跨度不跨越章节边界。然后将这些跨度分成2个大约500词的块，分块边界出现在句子（或独立从句）的末尾，由依存句法分析确定。

大语言模型生成文本

将人类撰写文本的第一块发送给大语言模型，提示为：“以以下文本相同的风格、语气和措辞，完成接下来的500个词，生成恰好500个词，并注意文本在生成的词之后不一定结束。” 提示后，被查询的大语言模型有时拒绝完成任务或返回不完整的响应。这些数据已被过滤掉，为每个大语言模型产生了8,290个文本的语料库。

数据质量和空文本

该语料库经过质量保证过滤，以删除损坏或格式错误的模型输出。过滤的垃圾信息包括：

符号/字符垃圾信息
数字序列输出
非英语语言切换被识别为此类的大语言模型响应已被替换为NA。这意味着并非所有模型的所有基础ID都有完整的输出。如果用户想要比较在所有模型中完全填充的文本，则必须相应地准备数据。

语料库组成

表1：按文本类型和作者（人类或大语言模型）划分的语料库词数。

作者	acad<br> (n = 1227)	blog<br> (n = 1526)	fic<br> (n = 1395)	news<br> (n = 1322)	spok<br> (n = 1721)	tvm<br> (n = 1099)	Total
Human
chunk_1	573,882	729,181	660,009	625,671	798,401	566,921	3,954,065
chunk_2	575,235	729,290	660,912	625,671	798,401	566,921	3,956,430

加载数据集

从HuggingFace加载: python from datasets import load_dataset dataset = load_dataset("browndw/human-ai-parallel-corpus-2")

直接从Parquet文件加载: r library(polars)

从text_data子目录加载所有parquet文件

df <- pl$read_parquet(hf://datasets/browndw/human-ai-parallel-corpus-2/**/*.parquet)

或者使用arrow

library(arrow) df <- read_parquet(hf://datasets/browndw/human-ai-parallel-corpus-2/text_data/hape2-text_gpt-4o-2024-08-06.parquet)

引用

如果研究中使用该语料库，请引用： Do LLMs write like humans? Variation in grammatical and rhetorical styles

@misc{reinhart2024llmswritelikehumans, title={Do LLMs write like humans? Variation in grammatical and rhetorical styles}, author={Alex Reinhart and David West Brown and Ben Markey and Michael Laudenbach and Kachatad Pantusen and Ronald Yurko and Gordon Weinberg}, year={2024}, eprint={2410.16107}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.16107}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，为深入探究人类与大型语言模型写作风格的差异，Human-AI Parallel English Corpus-2（HAP-E-2）应运而生。该数据集的构建遵循严谨的科学流程，首先从六个文本类型（学术、新闻、小说、口语、博客、影视剧本）中分别采集2000个样本，形成12000篇人类撰写的原始文本。每篇文本提取约1000个连续词汇，确保不跨越章节边界，并借助依存句法分析将其分割为两个约500词的片段。随后，将第一个人类片段作为提示输入至大型语言模型，要求其以相同风格、语调和措辞续写500词，生成对应的人工智能文本。经过严格过滤，剔除模型拒绝响应或输出不完整的样本，最终为每个模型保留了8290条高质量平行文本。

特点

该数据集的核心特点在于其精心设计的平行结构与广泛的文本类型覆盖。数据集不仅提供了人类撰写的第二片段作为真实参照，还包含了多种大型语言模型生成的续写文本，形成了直接可比的人类-人工智能写作对。文本类型的选择参考了当代美国英语语料库的构成，涵盖了从正式学术论述到日常口语表达的多样文体，确保了研究结果的普适性。此外，数据集经过了严格的质量控制，移除了符号重复、数字序列及非英语内容等低质量输出，并以NA值标记缺失数据，保障了语料的纯净度与可用性。这种设计使得研究者能够系统分析不同文体下人类与机器写作在语法、修辞等层面的细微差异。

使用方法

对于希望利用该数据集的研究者而言，其使用路径清晰而灵活。数据集可通过HuggingFace平台直接加载，或从Parquet格式文件读取，支持Python与R等主流数据分析环境。在实际分析中，通常将人类撰写的第一片段视为提示材料而非平行数据，因此比较研究应聚焦于人类第二片段与各模型生成文本之间的对照。用户需注意数据集中可能存在因过滤而产生的NA值，若需进行跨所有模型的完整比较，应通过列连接等操作筛选出无缺失数据的行。该数据集适用于文本分类、风格对比、模型评估等多种自然语言处理任务，为量化人工智能写作的人类似性提供了坚实的数据基础。

背景与挑战

背景概述

随着大型语言模型在文本生成领域的广泛应用，其输出文本与人类写作在风格、语法和修辞层面的差异成为自然语言处理研究的前沿议题。Human-AI Parallel English Corpus-2（HAP-E-2）由Alex Reinhart、David West Brown等学者于2024年构建，作为原始HAP-E语料库的扩展版本，旨在系统比较人类与多种LLM在不同文体中的写作表现。该数据集以当代美国英语语料库为参照，涵盖学术、新闻、小说、口语、博客及影视剧本六种文本类型，通过提供人类撰写的文本片段及其对应的LLM续写内容，为量化分析语言模型的风格模仿能力与创造性边界奠定了实证基础。

当前挑战

该数据集致力于解决文本风格分析与AI生成文本检测的核心挑战，即如何精准区分人类与机器在多元文体中的细微语言差异，尤其在语法结构、修辞策略和篇章连贯性层面。构建过程中面临多重困难：首先，确保人类文本片段在跨文体中的代表性与边界一致性，需依赖句法分析避免语义断裂；其次，LLM响应存在拒绝生成或输出不完整现象，需经过严格过滤以剔除符号滥用、数字序列及非英语内容等噪声数据；此外，不同模型输出的完整性不均，导致跨模型比较时需额外处理缺失值，增加了数据对齐与清洗的复杂度。

常用场景

经典使用场景

在自然语言处理领域，人类与人工智能生成文本的对比分析已成为一项关键研究课题。Human-AI Parallel English Corpus-2（HAP-E-2）作为该领域的基准数据集，其经典使用场景在于为大规模语言模型（LLMs）的文本生成能力提供系统性评估框架。该数据集通过精心设计的平行语料结构，将人类撰写的文本片段与LLMs在相同语境下生成的续写内容进行对齐，使得研究者能够深入探究不同模型在语法结构、修辞风格和语义连贯性方面的表现差异。这种对比不仅局限于单一文本类型，更涵盖了学术论文、新闻报道、小说、博客、口语转录及影视剧本等六种文体，从而构建了一个多维度的评估体系。

解决学术问题

该数据集有效解决了计算语言学中关于人工智能文本生成质量评估的核心学术问题。传统研究方法往往缺乏标准化、大规模的人类-机器平行文本对照，难以量化LLMs在模仿人类写作风格时的细微偏差。HAP-E-2通过提供超过八千条经过质量过滤的平行文本样本，使研究者能够精确测量模型在词汇多样性、句法复杂度和篇章逻辑性等维度与人类作者的差距。其意义在于为“机器写作是否类人”这一命题提供了实证基础，推动了文本风格迁移、生成模型可信度评估等子领域的发展，并为建立更科学的AI文本检测指标奠定了数据基石。

衍生相关工作

围绕该数据集衍生的经典研究工作主要集中在文本分类模型优化与生成质量评估框架创新。例如，原团队发表的论文《Do LLMs write like humans?》利用该语料库系统比较了GPT-4o等模型在六类文体中的修辞与语法变异模式，为后续研究提供了方法论范本。其他学者则基于该平行语料训练了基于Transformer的鉴别器，实现了对AI生成文本的高精度检测，相关模型已在HuggingFace平台开源。同时，该数据集启发了跨文体风格迁移研究，部分工作通过对比人类与AI在相同提示下的输出差异，提出了改进LLMs风格一致性的微调策略，推动了可控文本生成技术的发展。

以上内容由遇见数据集搜集并总结生成