five

Re3-Sci

收藏
arXiv2024-06-01 更新2024-06-21 收录
下载链接:
https://github.com/UKPLab/re3
下载链接
链接失效反馈
官方服务:
资源简介:
Re3-Sci数据集是由无处不在的知识处理实验室创建,专注于学术领域的合作文档修订。该数据集包含314篇科学论文的全文修订,总计11.6k个修订注释,涵盖了从句子到段落再到章节的多个粒度级别。创建过程中,数据集通过精细的人工标注,确保了修订动作和意图的准确性。Re3-Sci数据集的应用领域主要集中在学术文档的修订分析,旨在通过深入理解修订过程,提高文档质量和协作效率。

The Re3-Sci dataset was developed by the Ubiquitous Knowledge Processing Laboratory, focusing on collaborative document revision in the academic domain. This dataset includes full-text revisions of 314 scientific papers, totaling 11,600 revision comments, and covers multiple granularity levels ranging from individual sentences, paragraphs to entire chapters. During its development, the dataset underwent meticulous manual annotation to ensure the accuracy of revision actions and their respective intentions. The primary application scenarios of the Re3-Sci dataset are centered on academic document revision analysis, aiming to improve document quality and collaborative efficiency by gaining in-depth insights into the document revision process.
提供机构:
无处不在的知识处理实验室(UKP Lab)
创建时间:
2024-06-01
搜集汇总
数据集介绍
main_image_url
构建方式
在学术文本协作修订的研究背景下,Re3-Sci数据集的构建体现了系统性与严谨性。该数据集以314篇科学论文的修订版本为核心,通过整合F1000RD与NLPeer两大开放同行评审语料库,构建了覆盖全文的修订标注体系。采用轻量级句子预对齐算法,结合形式相似度与语义相似度进行初步匹配,再经由人工标注者验证与修正,最终达到0.95的准确率。标注过程依托INCEpTION平台开发的跨文档标注环境,由六名具备C1级英语水平的标注员执行迭代式质量管控,在句子、子句、段落与章节四个粒度层级上完成了11,648处修订对的行动与意图标注,并实现了审稿意见、修订内容与作者回复之间的三元对齐,确保了标注的一致性与完整性。
特点
Re3-Sci数据集在学术协作修订领域呈现出多维度、全范围的核心特征。其首要特点是实现了对修订过程的整体建模,首次将审稿意见、文档修订与作者回复纳入统一框架,揭示了三者间的复杂互动关系。数据集提供了精细的修订标注体系,不仅标注了增、删、改等基本修订行动,还涵盖了合并、拆分、融合等复杂操作,并深入识别了修订的意图,包括语法修正、清晰度提升、事实证据更新及观点主张变更等类别。尤为突出的是,标注覆盖了从子句到章节的多级文本粒度,并保留了完整的文档结构与上下文信息,支持对修订行为在文档中的分布模式、聚类特征及其与审稿请求关联性的深入分析。
使用方法
Re3-Sci数据集为自然语言处理在文本协作辅助领域的研究提供了多功能基准。研究者可利用其全范围修订标注,开发与评估修订意图自动分类、文档修订对齐、审稿意见关键请求提取等任务模型。数据集中对齐的修订-回复关系,支持文档级修订摘要生成这一新兴任务的探索。使用时应依据具体任务划分数据,例如将句子修订对、独立增删句作为输入,以修订意图为预测目标进行分类实验;或利用完整的修订列表及其元数据,生成连贯的修订摘要文本。数据集中提供的章节标题、修订位置等结构化信息,可作为模型输入的重要上下文特征。该数据集亦适用于分析学术写作中的人类修订行为模式,如修订的分布规律、行动与意图的关联性等实证研究。
背景与挑战
背景概述
Re3-Sci数据集由德国达姆施塔特工业大学Ubiquitous Knowledge Processing实验室于2024年发布,旨在构建一个全面建模协作文档修订过程的框架。该数据集聚焦于学术领域,收录了314篇科学论文的完整修订版本,包含11,648个句子级修订标注,并整合了同行评审意见与作者回复。其核心研究问题在于突破以往自然语言处理研究中仅关注修订、评审或回复单一环节的局限,首次实现了对评审-修订-响应全链条的联合建模,为深入理解协作写作中的复杂交互机制提供了实证基础。该数据集的建立推动了文本协作分析领域的方法论创新,并为开发智能修订辅助工具奠定了关键数据支撑。
当前挑战
Re3-Sci数据集致力于解决协作文档修订这一复杂领域的核心挑战,即如何系统性地建模评审、修订与响应之间的多维关联。具体挑战包括:在领域问题层面,需精准识别不同粒度(如句子、段落、章节)的修订操作,并解析其背后的意图(如语法修正、事实更新或论点调整),这对自然语言理解提出了高层次语义推理的要求。在构建过程中,面临全范围修订标注的艰巨性,包括长文档中修订对的精确对齐、跨文档关系的有效链接,以及编辑行为与意图标签体系的设计与验证。此外,数据标注需在保持文档整体语境的前提下进行,以确保修订分析的准确性与一致性,这对标注工具与流程提出了特殊的技术挑战。
常用场景
经典使用场景
在学术写作与同行评审领域,Re3-Sci数据集为研究协作文档修订过程提供了关键支撑。该数据集通过全面标注科学论文修订版本中的编辑行为、意图及与评审意见、作者回复的关联,成为分析文本协作中“评审-修订-响应”完整流程的经典资源。其典型应用场景包括深入探究作者在修订过程中的行为模式,例如编辑动作与意图之间的内在联系,以及修订在文档中的分布规律,为理解学术写作中的协作机制奠定了实证基础。
衍生相关工作
Re3-Sci数据集的发布催生了一系列围绕协作文档修订的衍生研究工作。其提出的全范围修订分析框架和标注体系,为后续研究提供了可扩展的方法论基础。例如,基于该数据集开展的自动化实验,系统评估了大语言模型在编辑意图分类等任务上的能力与局限,推动了修订辅助技术的探索。此外,数据集涵盖的多维度关联信息也激发了针对评审-修订-响应三元关系建模的新研究方向,为文本协作领域的实证分析与算法开发开辟了新的路径。
数据集最近研究
最新研究方向
在学术文本协作修订领域,Re3-Sci数据集为自然语言处理研究开辟了新的前沿方向。该数据集通过全范围标注框架,首次实现了对学术论文修订过程中审稿意见、修订内容及作者回复的联合建模,为深入理解协作写作的动态机制提供了实证基础。当前研究聚焦于利用大型语言模型自动化分析修订行为,包括编辑意图分类、修订对齐、审稿请求提取及文档编辑摘要生成等任务。这些探索不仅推动了智能写作辅助系统的发展,还揭示了人类在学术修订中的行为模式,如修订动作与意图的关联性、修订在文档中的分布规律以及审稿建议的采纳率。该数据集的应用正逐步扩展到更广泛的文本协作场景,为提升学术交流效率与质量提供了关键技术支持。
相关研究论文
  • 1
    Re3: A Holistic Framework and Dataset for Modeling Collaborative Document Revision无处不在的知识处理实验室(UKP Lab) · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作