five

Machine-Generated-Reviews-0.1

收藏
Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/NRC-CNRC/Machine-Generated-Reviews-0.1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于研究机器生成文本(MGT)输出句法同质化的机器生成同行评审,相关研究发表在论文《'Emphasizing the Commendable': A Study of Homogenized Transitive Verb Constructions in Machine Generated Peer Reviews》中。数据集由三种不同背景的大语言模型(google/gemma-3-4b-it、gpt-4o-2024-08-06、Qwen/Qwen3-4B-Instruct-2507)生成的同行评审组成,所有提示和生成文本均为英文。 数据集包含以下字段: - `venue`:会议名称 - `year`:会议年份 - `model`:用于生成评审的模型 - `submission_id`:提交ID - `review_id`:评审的sha1表示的前16字节 - `invitation_id`:提交邀请ID - `review`:使用`model`生成的机器评审 数据集规模为100K到1M之间,具体包含125,616条训练样本。统计数据按模型、年份和会议分类,例如google/gemma-3-4b-it模型生成41,872条评审,2024年生成29,247条评审,ICLR.cc 2024会议生成19,266条评审。 该数据集适用于语言建模和文本生成任务,可用于研究机器生成文本的同质化现象及其在学术评审中的应用。
创建时间:
2026-02-25
原始信息汇总

数据集概述

基本描述

  • 数据集名称:Machine Generated Reviews
  • 数据集标识:NRC-CNRC/Machine-Generated-Reviews-0.1
  • 许可协议:cc-by-sa-4.0
  • 主要任务类别:其他、文本生成
  • 关联任务ID:语言建模、文本到文本生成
  • 语言:英语
  • 数据规模:100K < n < 1M
  • 标签:文本、文本生成

数据集来源与用途

  • 研究背景:该数据集包含用于研究机器生成文本输出句法同质化的机器生成同行评审,具体研究发表于论文《"Emphasizing the Commendable": A Study of Homogenized Transitive Verb Constructions in Machine Generated Peer Reviews》(https://aclanthology.org/2026.lrec-main.649)。
  • 对应资源:相关的学术研究论文和官方评审可在OpenReview(https://openreview.net/)上获取。

数据生成方法

  • 生成模型:机器生成的同行评审由三个具有不同背景的大型语言模型(LLM)产生。

  • 提示词:所有提示词和生成的文本均为英文。使用的提示词模板为:

    Your task is to write a review given a paper titled {title} and the paper content is: {paper_content}. Your output should be like the following format: Summary: Strengths And Weaknesses: Summary Of The Review:

    其中,{title}为论文标题,{paper_content}为论文内容(从论文PDF文件中提取的文本)。

数据结构

数据集中的每个条目包含以下字段:

  • venue:会议/期刊名称
  • year:年份
  • model:用于生成评审的模型名称
  • submission_id:提交ID
  • review_id:评审文本sha1哈希值的前16字节
  • invitation_id:提交邀请ID
  • review:使用model生成的机器评审内容

数据统计概览

按模型统计的评审数量

模型 评审数量
google/gemma-3-4b-it 41872
gpt-4o-2024-08-06 41872
Qwen/Qwen3-4B-Instruct-2507 41872

按年份统计的评审数量

年份 评审数量
2018 2727
2019 4125
2020 6354
2021 16050
2022 15987
2023 24402
2024 29247
2025 26724

按会议/期刊和年份统计的评审数量

会议/期刊 年份 评审数量
EMNLP 2023 5739
ICLR.cc 2018 2727
ICLR.cc 2019 4125
ICLR.cc 2020 6354
ICLR.cc 2021 7341
ICLR.cc 2022 7029
ICLR.cc 2023 9303
ICLR.cc 2024 19266
ICLR.cc 2025 26724
NeurIPS.cc 2021 8253
NeurIPS.cc 2022 8367
NeurIPS.cc 2023 8784
NeurIPS.cc 2024 9216
robot-learning.org/CoRL 2021 456
robot-learning.org/CoRL 2022 591
robot-learning.org/CoRL 2023 576
robot-learning.org/CoRL 2024 765

数据访问与使用

  • 数据集加载:可通过Hugging Face datasets库加载。 python from datasets import load_dataset dataset = load_dataset("NRC-CNRC/Machine-Generated-Reviews-0.1")

  • 数据分割:数据集包含一个训练集(train),共有125,616条样本。

  • 关联人类评审:可通过将条目中的{submission_id}代入URL模板https://openreview.net/forum?id={submission_id}来访问对应的人类评审。

引用信息

若使用本数据集,请引用以下论文:

@inproceedings{ fung-etal-2026-emphazing, title = { "Emphasizing the Commendable": A Study of Homogenized Transitive Verb Constructions in Machine Generated Peer Reviews }, author = "Fung, Hing-Yuet and Larkin, Samuel and Lo, Chi-kiu", booktitle = "Proceedings of the Fifteenth Language Resources and Evaluation Conference", month = may, year = "2026", address = "Palma de Mallorca, Spain", publisher = "European Language Resources Association" }

论文链接:https://aclanthology.org/2026.lrec-main.649

搜集汇总
数据集介绍
main_image_url
构建方式
在学术文本生成研究领域,Machine-Generated-Reviews-0.1数据集的构建体现了严谨的实证方法。研究者从OpenReview平台提取了2018年至2025年间多个顶级学术会议(如ICLR、NeurIPS、EMNLP、CoRL)的论文标题与内容,作为生成基础。采用统一提示模板,指导三种具有不同架构背景的大语言模型(包括google/gemma-3-4b-it、gpt-4o-2024-08-06和Qwen/Qwen3-4B-Instruct-2507)生成结构化同行评审文本。每个生成条目均关联原始论文的元数据,并通过密码学哈希算法为每份生成评审分配唯一标识符,确保了数据来源的可追溯性与实验的可复现性。
特点
该数据集的核心特征在于其专注于机器生成文本的句法同质化现象研究。它囊括了超过12.5万条由不同模型生成的英文评审,时间跨度覆盖近年人工智能学术会议的关键发展期,为纵向比较提供了可能。数据条目结构清晰,不仅包含生成的评论文本,还完整保留了对应的会议名称、年份、模型类型及原始论文提交ID,使得生成文本能与OpenReview上公开的人类专家评审进行直接对照分析。这种设计为深入探究大语言模型在特定学术写作任务中的表达模式、风格趋同及潜在偏见提供了高质量、大规模的研究素材。
使用方法
该数据集主要服务于计算语言学和自然语言处理领域的研究,特别是机器生成文本检测、风格分析和学术写作辅助系统开发。使用者可通过HuggingFace的`datasets`库便捷加载,获取包含全部字段的结构化数据。研究人员可以按模型、会议或年份对数据进行切片分析,或利用`submission_id`字段构建与人类评审的配对语料库,进行对比研究。其实验设计也支持扩展研究,例如通过修改原始提示词来探索不同指令对生成文本多样性的影响,或将其作为基准数据用于训练和评估区分机器与人类文本的分类模型。
背景与挑战
背景概述
随着大型语言模型在学术评审等专业文本生成任务中的广泛应用,其输出文本的多样性与真实性面临严峻考验。Machine-Generated-Reviews-0.1数据集应运而生,由加拿大国家研究委员会等机构的研究人员于2026年构建,旨在深入探究机器生成文本在句法层面的同质化现象。该数据集聚焦于学术同行评审场景,汇集了基于Gemma、GPT-4o及Qwen等先进模型生成的逾12万条评审文本,覆盖ICLR、NeurIPS等多个顶级会议2018至2025年的投稿论文。其核心研究问题在于揭示语言模型生成文本中及物动词结构的趋同模式,为自然语言生成领域的可解释性研究提供了关键实证基础。
当前挑战
该数据集致力于解决机器生成文本在学术评审领域中的同质化检测难题,其核心挑战在于如何量化并解析不同模型生成文本中隐藏的句法一致性模式。构建过程中,研究者需克服多源数据对齐的复杂性:既要从OpenReview平台精准提取对应年份与会议的人类评审数据作为参照基准,又需设计标准化提示词框架以确保跨模型生成文本的可比性。此外,处理大规模学术PDF内容提取中的格式噪声、维护生成文本与原始投稿间的元数据关联链,以及平衡不同会议年份的数据代表性,均构成了数据集构建中的实质性障碍。
常用场景
经典使用场景
在自然语言处理领域,机器生成文本的评估与检测已成为研究热点。Machine-Generated-Reviews-0.1数据集为这一领域提供了宝贵的资源,其经典使用场景聚焦于分析大型语言模型生成的同行评审文本。研究者利用该数据集,深入探究机器生成评论文本在句法结构上的同质化现象,特别是及物动词构式的使用模式。通过对比不同模型生成的评论,学者能够揭示语言模型在特定任务中的输出特性,为文本生成质量评估奠定基础。
实际应用
在实际应用层面,该数据集为开发自动化文本检测工具提供了关键训练与测试资源。安全机构与学术平台可基于此类数据构建模型,用于识别机器生成的评审内容,防范学术不端行为。教育机构也能利用它培训研究人员辨别人工与机器生成文本的能力。此外,科技公司可参考其发现优化语言模型,增强生成文本的多样性与真实性,提升自动化评审辅助系统的实用价值。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在文本同质化分析与检测技术。原研究论文《Emphasizing the Commendable》系统阐述了机器生成评审中及物动词构式的同质化现象,为后续研究设立了基准。相关学者进一步探索了基于语法模式的特征提取方法,以及结合深度学习的检测模型。这些工作扩展至更广泛的机器生成文本检测领域,促进了如GLTR等工具的发展,并在学术出版与内容审核场景中产生了持续影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作