beemo

Hugging Face2024-09-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/toloka/beemo

下载链接

链接失效反馈

官方服务：

资源简介：

Beemo（**B**enchmark of **e**xpert-**e**dited **m**achine-generated **o**utputs）是一个包含2195个文本的新基准，这些文本由十个指令微调的语言模型生成，并由专家注释者编辑，用于各种用例，从创意写作到文本摘要。数据集的创建过程包括文本生成、文本编辑和同行评审。数据集的结构包括多个字段，如id、category、model、prompt_id、prompt、model_output、human_output和human_edits。数据集的统计信息按类别和指令微调的LM进行了详细描述。初始评估结果显示了11个机器生成文本检测器配置的性能。数据集的许可证为MIT，但部分内容受原始数据集和指令微调LM的许可证限制。

Beemo (**B**enchmark of **e**xpert-**e**dited **m**achine-generated **o**utputs) is a novel benchmark containing 2,195 texts generated by ten instruction-tuned language models and edited by expert annotators, covering diverse use cases ranging from creative writing to text summarization. The dataset creation process encompasses text generation, text editing, and peer review. The dataset structure includes multiple fields such as id, category, model, prompt_id, prompt, model_output, human_output, and human_edits. Detailed statistics of the dataset are provided per category and instruction-tuned LM. Initial evaluation results demonstrate the performance of 11 machine-generated text detector configurations. The dataset is licensed under MIT, while portions of its content are subject to the licenses of the original datasets and instruction-tuned LMs.

创建时间：

2024-09-16

原始信息汇总

Beemo 数据集概述

数据集描述

Beemo（Benchmark of expert-edited machine-generated outputs）是一个包含2195个文本的新基准数据集，这些文本由十个指令微调的语言模型（LMs）生成，并由专家注释者编辑，适用于从创意写作到文本摘要的各种用例。该数据集旨在解决更实际的机器生成文本检测场景，其中用户对模型输出进行润色以使其更接近人类写作风格。

数据集创建

Beemo的创建过程包括以下步骤：

文本生成：使用指令微调的LM生成文本。
文本编辑：由专家注释者编辑LM的输出。
同行评审：对编辑后的机器生成文本进行同行评审和质量控制。

文本生成

使用No Robots 🙅‍♂️🤖数据集作为提示和相应的人类写作文本的来源，涵盖以下类别：生成、重写、摘要、开放式问答和封闭式问答。随机抽样每个提示，使用十个开源指令微调的LM生成输出，使用默认的🤗 HuggingFace推理超参数。

文本编辑

机器生成的文本由内部专家注释团队编辑，这些注释者在编辑和注释生成内容方面经验丰富。每个注释者在接受任务前都会收到详细的类别特定注释指南。注释任务包括：

仔细阅读给定的提示和LM响应。
通过纠正事实不一致、消除幻觉以及改进风格、连贯性和流畅性来优化输出。

编辑比例在20%到40%之间。注释者将文本标记为：

"Perfect"：如果不需要任何更改且符合提示意图。
"Rejected"：如果需要更多改进或未遵循提示。

仅使用编辑后的文本创建Beemo。

同行评审

每个编辑后的机器生成响应都经过同行评审和质量控制阶段，基于手动验证和自动质量标准。

手动验证

经验丰富的首席编辑进行手动验证，每日与专家注释团队沟通，提供改进建议和反馈。

自动质量标准

如果编辑后的文本未通过以下任何自动质量标准，则返回给专家注释团队和首席编辑进行修订：

使用difflib库估计编辑数量：至少20%的文本应被编辑。
跟踪编辑所花费的时间：编辑一个机器生成文本应至少花费2分钟。
对抗性过滤：至少一个商业AI检测器应将编辑后的文本识别为人类写作。

数据集结构

数据集实例

每个数据集实例如下所示：

json { id: 1145, category: Open QA, model: mistralai/Mixtral-8x7B-Instruct-v0.1, prompt_id: 615aadc25bc591493426c8ca2e60e79daeb9e6a7118199fe4efa8e3f41b01fc2, prompt: Was Ozzie Smith ever voted into the Baseball Hall of Fame?, model_output: Yes, Ozzie Smith was elected to the Baseball Hall of Fame in 2, human_output: Ozzie Smith was inducted into the National Baseball Hall of Fame on July 28, 2002. He had been elected on his first ballot, the first time he was eligible, by receiving 91.7% of the votes cast. He was also one of 22 former players and personnel to be inducted into the St. Louis Cardinals Hall of Fame Museum in 2014 for the inaugural class., human_edits: Ozzie Smith was elected to the Baseball Hall of Fame in 2002. }

数据集字段

id：示例ID
category：来自No Robots 🙅‍♂️🤖的提示类别
model：生成响应的指令微调LM的名称
prompt_id：来自No Robots 🙅‍♂️🤖的提示ID
prompt：描述用户请求LM执行的操作
model_output：LM对提示的响应
human_output：来自No Robots 🙅‍♂️🤖的人类写作黄金标准响应
human_edits：专家编辑的LM响应

一般统计

按类别统计

类别	示例数量	模型输出词数 (M)	人类编辑词数 (E)	人类输出词数 (H)
Generation	587	255.24 ± 147.83	235.21 ± 145.65	192.59 ± 121.3
Rewrite	525	211.87 ± 135.55	207.74 ± 145.98	205.85 ± 171.58
Summarize	390	123.7 ± 94.39	85.54 ± 51.08	64.39 ± 39.2
Open QA	485	156.18 ± 121.21	109.8 ± 105.1	76.66 ± 47.01
Closed QA	208	70.98 ± 63.52	51.58 ± 53.66	22.95 ± 14.44
Overall	2195	182.15 ± 137.82	156.94 ± 136.5	131.29 ± 129.01

按指令微调LM统计

模型	示例数量	词数 (M)	停用词数 (M)	Flesch-Kincaid Grade (M)	编辑距离 (M, E)	编辑距离 (M, H)
HuggingFaceH4/zephyr-7b-beta	230	203.56 ± 143.09	98.43 ± 76.85	9.42 ± 6.27	144.93 ± 111.01	211.22 ± 151.6
allenai/tulu-2-7b	216	139.76 ± 95.21	70.9 ± 50.5	8.41 ± 3.63	104.53 ± 95.91	164.76 ± 126.19
allenai/tulu-2-13b	211	149.95 ± 113.37	74.15 ± 60.96	9.44 ± 7.08	92.55 ± 93.53	170.25 ± 142.93
google/gemma-2b-it	204	153.79 ± 137.75	69.59 ± 65.49	7.73 ± 3.65	120.98 ± 130.15	188.56 ± 172.0
google/gemma-7b-it	209	140.81 ± 111.14	63.71 ± 52.87	8.01 ± 4.06	101.6 ± 106.03	175.59 ± 145.4
meta-llama/Llama-2-7b-chat-hf	236	227.41 ± 155.22	107.67 ± 81.07	8.63 ± 3.71	160.38 ± 132.92	239.5 ± 170.31
meta-llama/Llama-2-13b-chat-hf	235	211.98 ± 150.72	102.86 ± 77.34	7.76 ± 3.44	166.83 ± 131.14	217.17 ± 163.6
meta-llama/Llama-2-70b-chat-hf	225	238.97 ± 146.51	118.68 ± 81.02	7.97 ± 4.56	190.53 ± 134.77	256.45 ± 157.17
mistralai/Mistral-7B-Instruct-v0.1	202	145.59 ± 120.75	72.48 ± 64.95	8.94 ± 7.43	101.21 ± 102.59	153.63 ± 128.54
mistralai/Mixtral-8x7B-Instruct-v0.1	227	192.51 ± 137.21	92.37 ± 73.09	8.57 ± 3.83	117.11 ± 99.72	203.58 ± 154.21
Overall	2195	182.15 ± 137.82	87.93 ± 71.87	8.49 ± 4.98	131.35 ± 119.36	199.43 ± 155.3

初始评估

报告了11个机器生成文本检测器配置在Beemo上的初始评估结果。

检测器

零样本检测器

Binoculars
log p, DetectGPT

预训练监督检测器

AIGC Detector (MPU)
MAGE

设置

考虑了三种二分类场景，通过操纵不同版本的提示响应：

H vs. M：human_output vs. model_output
E vs. M：human_edits vs. model_output
H vs. E：human_output vs. human_edits

初始评估结果

检测器	H vs. M	E vs. M	H vs. E
Binoculars	83.90	76.79	61.24
log p (gpt2-xl)	69.72	64.73	56.56
log p (facebook_opt-1.3b)	71.81	66.52	56.85
log p (tiiuae/falcon-7b)	69.61	65.48	55.70
log p (Qwen/Qwen2-7B)	72.93	68.68	56.37
DetectGPT (gpt2-xl)	64.91	63.71	62.75
DetectGPT (facebook_opt-1.3b)	66.66	66.87	64.09
DetectGPT (tiiuae/falcon-7b)	69.04	65.35	62.51
DetectGPT (Qwen/Qwen2-7B)	69.04	69.37	63.50
AIGC Detector (MPU)	70.52	70.35	50.66
MAGE	73.72	60.88	64.09

许可证

来自No Robots 🙅‍♂️🤖的提示（prompt）和人类写作文本（human_output）遵循原始数据集的许可证：CC-BY-NC-4.0。
机器生成文本（model_output）遵循底层指令微调LLMs的许可条款。
专家编辑的机器生成文本（human_edits）在MIT许可证下可用，除非底层指令微调LLMs的许可条款另有规定。

联系我们

Vladislav Mikhailov (vladism@ifi.uio.no)
Ekaterina Artemova (katya-art@toloka.ai)

搜集汇总

数据集介绍

构建方式

Beemo数据集的构建过程分为三个主要步骤。首先，通过指令微调的大语言模型（LLM）生成文本，这些模型基于No Robots数据集中的提示进行响应。其次，由经验丰富的专家对生成的文本进行编辑，以确保其质量和人类可读性。最后，使用两个先进的大语言模型（GPT-4o和Llama-3.1-70B-Instruct）对生成的文本进行进一步的编辑，以模拟人类写作风格。这一过程生成了13,100条经过编辑的机器生成文本，涵盖了多种应用场景。

特点

Beemo数据集的特点在于其多样性和精细的编辑过程。数据集包含了6,500条人类撰写的文本和10,000条由10种开源指令微调LLM生成的文本。每条机器生成的文本都经过专家和两个先进LLM的编辑，生成了多个版本的编辑文本。这种多层次编辑使得数据集能够更好地模拟实际应用中机器生成文本的多样性，尤其是在用户对LLM输出进行修改或使用其他LLM进行优化的场景中。

使用方法

Beemo数据集主要用于机器生成文本检测的基准测试。研究人员可以使用该数据集来评估和比较不同模型在生成文本检测任务中的表现。数据集中的每个实例都包含了原始提示、机器生成的文本、人类撰写的标准答案、专家编辑的文本以及两个先进LLM编辑的多个版本。通过这些数据，研究人员可以分析不同编辑策略对文本质量的影响，并开发更有效的检测算法。

背景与挑战

背景概述

Beemo数据集是由Toloka、宾夕法尼亚州立大学和奥斯陆大学联合创建的一个用于细粒度机器生成文本检测的基准数据集。该数据集于2024年发布，旨在解决机器生成文本与人类编辑文本之间的区分问题。数据集包含6500条由人类撰写的文本，以及由十种开源指令微调的大语言模型（LLM）生成的文本，并由专家注释者进行编辑。此外，每条机器生成的文本还通过两种先进的LLM（如GPT-4o和Llama-3.1-70B）进行了多样化编辑，生成了13100条机器生成与LLM编辑的文本。Beemo的创建标志着在更实际的机器生成文本检测场景中的首次尝试，特别是当用户对LLM输出进行优化或使用其他LLM使其更接近人类语言时。

当前挑战

Beemo数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，机器生成文本的检测任务本身具有复杂性，尤其是在文本经过多次编辑后，如何有效区分机器生成与人类编辑的文本成为一个难题。其次，在数据集构建过程中，如何确保专家编辑的文本质量以及LLM编辑的多样性也是一个关键挑战。此外，数据集的构建依赖于多种开源LLM，这些模型的输出质量和编辑效果可能存在差异，进一步增加了数据集的复杂性和构建难度。

常用场景

经典使用场景

Beemo数据集在自然语言处理领域中被广泛应用于机器生成文本的检测与评估。其经典使用场景包括对多种开源指令微调大语言模型（LLMs）生成的文本进行细粒度的质量评估，尤其是在生成、重写、摘要、开放问答和封闭问答等任务中。通过对比人类专家编辑的文本与机器生成的文本，研究者能够深入分析不同模型在生成自然语言时的表现差异，从而为模型优化提供数据支持。

解决学术问题

Beemo数据集解决了机器生成文本检测中的关键学术问题，尤其是在用户对LLM输出进行微调或使用其他LLM使其更接近人类语言的情况下。通过提供大量经过专家和先进LLM编辑的文本，该数据集为研究者提供了一个基准，用于评估和改进文本生成模型的自然性和准确性。这一数据集的出现填补了现有研究在机器生成文本检测领域的空白，推动了相关技术的进一步发展。

衍生相关工作

Beemo数据集的发布催生了一系列相关研究工作，尤其是在机器生成文本检测和模型优化领域。基于该数据集，研究者开发了多种先进的文本检测算法和模型优化技术。例如，一些研究利用Beemo数据集训练深度学习模型，以更准确地识别机器生成文本的特征。此外，该数据集还被用于评估不同LLM在生成自然语言时的表现，推动了模型微调和生成策略的改进。

以上内容由遇见数据集搜集并总结生成