beemo
收藏Beemo 数据集概述
数据集描述
Beemo(Benchmark of expert-edited machine-generated outputs)是一个包含2195个文本的新基准数据集,这些文本由十个指令微调的语言模型(LMs)生成,并由专家注释者编辑,适用于从创意写作到文本摘要的各种用例。该数据集旨在解决更实际的机器生成文本检测场景,其中用户对模型输出进行润色以使其更接近人类写作风格。
数据集创建
Beemo的创建过程包括以下步骤:
- 文本生成:使用指令微调的LM生成文本。
- 文本编辑:由专家注释者编辑LM的输出。
- 同行评审:对编辑后的机器生成文本进行同行评审和质量控制。
文本生成
使用No Robots 🙅♂️🤖数据集作为提示和相应的人类写作文本的来源,涵盖以下类别:生成、重写、摘要、开放式问答和封闭式问答。随机抽样每个提示,使用十个开源指令微调的LM生成输出,使用默认的🤗 HuggingFace推理超参数。
文本编辑
机器生成的文本由内部专家注释团队编辑,这些注释者在编辑和注释生成内容方面经验丰富。每个注释者在接受任务前都会收到详细的类别特定注释指南。注释任务包括:
- 仔细阅读给定的提示和LM响应。
- 通过纠正事实不一致、消除幻觉以及改进风格、连贯性和流畅性来优化输出。
编辑比例在20%到40%之间。注释者将文本标记为:
- "Perfect":如果不需要任何更改且符合提示意图。
- "Rejected":如果需要更多改进或未遵循提示。
仅使用编辑后的文本创建Beemo。
同行评审
每个编辑后的机器生成响应都经过同行评审和质量控制阶段,基于手动验证和自动质量标准。
手动验证
经验丰富的首席编辑进行手动验证,每日与专家注释团队沟通,提供改进建议和反馈。
自动质量标准
如果编辑后的文本未通过以下任何自动质量标准,则返回给专家注释团队和首席编辑进行修订:
- 使用
difflib库估计编辑数量:至少20%的文本应被编辑。 - 跟踪编辑所花费的时间:编辑一个机器生成文本应至少花费2分钟。
- 对抗性过滤:至少一个商业AI检测器应将编辑后的文本识别为人类写作。
数据集结构
数据集实例
每个数据集实例如下所示:
json { id: 1145, category: Open QA, model: mistralai/Mixtral-8x7B-Instruct-v0.1, prompt_id: 615aadc25bc591493426c8ca2e60e79daeb9e6a7118199fe4efa8e3f41b01fc2, prompt: Was Ozzie Smith ever voted into the Baseball Hall of Fame?, model_output: Yes, Ozzie Smith was elected to the Baseball Hall of Fame in 2, human_output: Ozzie Smith was inducted into the National Baseball Hall of Fame on July 28, 2002. He had been elected on his first ballot, the first time he was eligible, by receiving 91.7% of the votes cast. He was also one of 22 former players and personnel to be inducted into the St. Louis Cardinals Hall of Fame Museum in 2014 for the inaugural class., human_edits: Ozzie Smith was elected to the Baseball Hall of Fame in 2002. }
数据集字段
id:示例IDcategory:来自No Robots 🙅♂️🤖的提示类别model:生成响应的指令微调LM的名称prompt_id:来自No Robots 🙅♂️🤖的提示IDprompt:描述用户请求LM执行的操作model_output:LM对提示的响应human_output:来自No Robots 🙅♂️🤖的人类写作黄金标准响应human_edits:专家编辑的LM响应
一般统计
按类别统计
| 类别 | 示例数量 | 模型输出词数 (M) | 人类编辑词数 (E) | 人类输出词数 (H) |
|---|---|---|---|---|
| Generation | 587 | 255.24 ± 147.83 | 235.21 ± 145.65 | 192.59 ± 121.3 |
| Rewrite | 525 | 211.87 ± 135.55 | 207.74 ± 145.98 | 205.85 ± 171.58 |
| Summarize | 390 | 123.7 ± 94.39 | 85.54 ± 51.08 | 64.39 ± 39.2 |
| Open QA | 485 | 156.18 ± 121.21 | 109.8 ± 105.1 | 76.66 ± 47.01 |
| Closed QA | 208 | 70.98 ± 63.52 | 51.58 ± 53.66 | 22.95 ± 14.44 |
| Overall | 2195 | 182.15 ± 137.82 | 156.94 ± 136.5 | 131.29 ± 129.01 |
按指令微调LM统计
| 模型 | 示例数量 | 词数 (M) | 停用词数 (M) | Flesch-Kincaid Grade (M) | 编辑距离 (M, E) | 编辑距离 (M, H) |
|---|---|---|---|---|---|---|
| HuggingFaceH4/zephyr-7b-beta | 230 | 203.56 ± 143.09 | 98.43 ± 76.85 | 9.42 ± 6.27 | 144.93 ± 111.01 | 211.22 ± 151.6 |
| allenai/tulu-2-7b | 216 | 139.76 ± 95.21 | 70.9 ± 50.5 | 8.41 ± 3.63 | 104.53 ± 95.91 | 164.76 ± 126.19 |
| allenai/tulu-2-13b | 211 | 149.95 ± 113.37 | 74.15 ± 60.96 | 9.44 ± 7.08 | 92.55 ± 93.53 | 170.25 ± 142.93 |
| google/gemma-2b-it | 204 | 153.79 ± 137.75 | 69.59 ± 65.49 | 7.73 ± 3.65 | 120.98 ± 130.15 | 188.56 ± 172.0 |
| google/gemma-7b-it | 209 | 140.81 ± 111.14 | 63.71 ± 52.87 | 8.01 ± 4.06 | 101.6 ± 106.03 | 175.59 ± 145.4 |
| meta-llama/Llama-2-7b-chat-hf | 236 | 227.41 ± 155.22 | 107.67 ± 81.07 | 8.63 ± 3.71 | 160.38 ± 132.92 | 239.5 ± 170.31 |
| meta-llama/Llama-2-13b-chat-hf | 235 | 211.98 ± 150.72 | 102.86 ± 77.34 | 7.76 ± 3.44 | 166.83 ± 131.14 | 217.17 ± 163.6 |
| meta-llama/Llama-2-70b-chat-hf | 225 | 238.97 ± 146.51 | 118.68 ± 81.02 | 7.97 ± 4.56 | 190.53 ± 134.77 | 256.45 ± 157.17 |
| mistralai/Mistral-7B-Instruct-v0.1 | 202 | 145.59 ± 120.75 | 72.48 ± 64.95 | 8.94 ± 7.43 | 101.21 ± 102.59 | 153.63 ± 128.54 |
| mistralai/Mixtral-8x7B-Instruct-v0.1 | 227 | 192.51 ± 137.21 | 92.37 ± 73.09 | 8.57 ± 3.83 | 117.11 ± 99.72 | 203.58 ± 154.21 |
| Overall | 2195 | 182.15 ± 137.82 | 87.93 ± 71.87 | 8.49 ± 4.98 | 131.35 ± 119.36 | 199.43 ± 155.3 |
初始评估
报告了11个机器生成文本检测器配置在Beemo上的初始评估结果。
检测器
零样本检测器
- Binoculars
- log p, DetectGPT
预训练监督检测器
- AIGC Detector (MPU)
- MAGE
设置
考虑了三种二分类场景,通过操纵不同版本的提示响应:
- H vs. M:
human_outputvs.model_output - E vs. M:
human_editsvs.model_output - H vs. E:
human_outputvs.human_edits
初始评估结果
| 检测器 | H vs. M | E vs. M | H vs. E |
|---|---|---|---|
| Binoculars | 83.90 | 76.79 | 61.24 |
| log p (gpt2-xl) | 69.72 | 64.73 | 56.56 |
| log p (facebook_opt-1.3b) | 71.81 | 66.52 | 56.85 |
| log p (tiiuae/falcon-7b) | 69.61 | 65.48 | 55.70 |
| log p (Qwen/Qwen2-7B) | 72.93 | 68.68 | 56.37 |
| DetectGPT (gpt2-xl) | 64.91 | 63.71 | 62.75 |
| DetectGPT (facebook_opt-1.3b) | 66.66 | 66.87 | 64.09 |
| DetectGPT (tiiuae/falcon-7b) | 69.04 | 65.35 | 62.51 |
| DetectGPT (Qwen/Qwen2-7B) | 69.04 | 69.37 | 63.50 |
| AIGC Detector (MPU) | 70.52 | 70.35 | 50.66 |
| MAGE | 73.72 | 60.88 | 64.09 |
许可证
- 来自No Robots 🙅♂️🤖的提示(
prompt)和人类写作文本(human_output)遵循原始数据集的许可证:CC-BY-NC-4.0。 - 机器生成文本(
model_output)遵循底层指令微调LLMs的许可条款。 - 专家编辑的机器生成文本(
human_edits)在MIT许可证下可用,除非底层指令微调LLMs的许可条款另有规定。
联系我们
- Vladislav Mikhailov (vladism@ifi.uio.no)
- Ekaterina Artemova (katya-art@toloka.ai)




