human-ai-parallel-corpus-2
收藏Human-AI Parallel English Corpus-2 (HAP-E-2) 数据集概述
数据集基本信息
- 数据集名称: Human-AI Parallel English Corpus-2 (HAP-E-2)
- 数据集地址: https://huggingface.co/datasets/browndw/human-ai-parallel-corpus-2
- 许可证: MIT
- 任务类别: 文本分类
- 语言: 英语
数据集目的
HAP-E-2 语料库是原始 HAP-E 语料库的扩展,增加了更新的模型。该数据集旨在比较人类写作与大语言模型写作。
数据构建方法
- 向大语言模型提供一段约500词的人类撰写文本块,然后提示模型生成额外的500词。
- 原始文本中实际后续的第二个500词人类撰写文本块可以与LLM生成的文本进行比较。
- 大多数比较、模型拟合、分类等操作应排除人类文本块1数据,因为这些数据用于提示LLM,不应被视为平行数据的一部分。提供文本块1是为了方便查询其他/新的大语言模型,并可能进行重要的完整性检查。
语料库构成
文本类型
语料库旨在近似模拟《当代美国英语语料库》的构成,但包含6种文本类型:
- 学术: 样本来自Elsevier出版的40,000多篇开放获取学术文章语料库。
- 新闻: 样本来自美国新闻机构在线发布的100,000多篇新闻文章语料库。
- 小说: 样本来自古登堡计划中公有领域的公开小说和短篇故事。
- 口语: 样本来自100,000个播客转录语料库。
- 博客: 样本来自blogger.com的681,288篇帖子语料库。
- 电视和电影剧本: 样本来自2个不同的剧本语料库,部分通过OCR转换。
人类生成文本
从6种文本类型中各收集2000个样本,创建了包含12,000个文本的原始语料库。 从每个文本中提取前约1000个词,条件是这1000词的跨度不跨越章节边界。 然后将这些跨度分成2个大约500词的块,分块边界出现在句子(或独立从句)的末尾,由依存句法分析确定。
大语言模型生成文本
将人类撰写文本的第一块发送给大语言模型,提示为:“以以下文本相同的风格、语气和措辞,完成接下来的500个词,生成恰好500个词,并注意文本在生成的词之后不一定结束。” 提示后,被查询的大语言模型有时拒绝完成任务或返回不完整的响应。这些数据已被过滤掉,为每个大语言模型产生了8,290个文本的语料库。
数据质量和空文本
该语料库经过质量保证过滤,以删除损坏或格式错误的模型输出。 过滤的垃圾信息包括:
- 符号/字符垃圾信息
- 数字序列输出
- 非英语语言切换
被识别为此类的大语言模型响应已被替换为
NA。这意味着并非所有模型的所有基础ID都有完整的输出。如果用户想要比较在所有模型中完全填充的文本,则必须相应地准备数据。
语料库组成
表1:按文本类型和作者(人类或大语言模型)划分的语料库词数。
| 作者 | acad<br> (n = 1227) | blog<br> (n = 1526) | fic<br> (n = 1395) | news<br> (n = 1322) | spok<br> (n = 1721) | tvm<br> (n = 1099) | Total |
|---|---|---|---|---|---|---|---|
| Human | |||||||
| chunk_1 | 573,882 | 729,181 | 660,009 | 625,671 | 798,401 | 566,921 | 3,954,065 |
| chunk_2 | 575,235 | 729,290 | 660,912 | 625,671 | 798,401 | 566,921 | 3,956,430 |
加载数据集
从HuggingFace加载: python from datasets import load_dataset dataset = load_dataset("browndw/human-ai-parallel-corpus-2")
直接从Parquet文件加载: r library(polars)
从text_data子目录加载所有parquet文件
df <- pl$read_parquet(hf://datasets/browndw/human-ai-parallel-corpus-2/**/*.parquet)
或者使用arrow
library(arrow) df <- read_parquet(hf://datasets/browndw/human-ai-parallel-corpus-2/text_data/hape2-text_gpt-4o-2024-08-06.parquet)
引用
如果研究中使用该语料库,请引用: Do LLMs write like humans? Variation in grammatical and rhetorical styles
@misc{reinhart2024llmswritelikehumans, title={Do LLMs write like humans? Variation in grammatical and rhetorical styles}, author={Alex Reinhart and David West Brown and Ben Markey and Michael Laudenbach and Kachatad Pantusen and Ronald Yurko and Gordon Weinberg}, year={2024}, eprint={2410.16107}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.16107}, }




