DeFine

Name: DeFine
Creator: 华北工业大学,北京大学,国防科技大学,AMS信息研究中心
Published: 2025-03-10 18:48:00
License: 暂无描述

arXiv2025-03-10 更新2025-03-12 收录

下载链接：

https://github.com/DeFine-LFAG/DeFine_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DeFine数据集是一个为长篇文章生成任务而设计的分解和细粒度注释的数据集。由华北工业大学、北京大学等机构的研究人员创建，该数据集采用分层分解策略，整合了特定领域的知识与多级注释，以确保在文章生成中的细粒度控制和增强深度。数据集通过多代理协作管道构建，包含数据挖掘、引用检索、问答注释和数据清洗四个专门化的代理。DeFine数据集共有6502条问答数据、9647条摘要集数据和52045条大纲数据，涵盖中英两种语言，覆盖科学、人文、历史、地理、文学、医学和体育等多个领域。

The DeFine dataset is a decomposed and fine-grained annotated dataset designed for long-form article generation tasks. Developed by researchers from institutions including North China University of Technology, Peking University, and other organizations, this dataset adopts a hierarchical decomposition strategy that integrates domain-specific knowledge and multi-level annotations to ensure fine-grained control and enhanced depth during article generation. Constructed through a multi-agent collaborative pipeline, the dataset encompasses four specialized agents: data mining, citation retrieval, question-answering annotation, and data cleaning. The DeFine dataset contains a total of 6,502 question-answering data points, 9,647 summary data entries, and 52,045 outline data entries, covering both Chinese and English languages, and spanning multiple domains including science, humanities, history, geography, literature, medicine, sports, and others.

提供机构：

华北工业大学,北京大学,国防科技大学,AMS信息研究中心

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

DeFine数据集的构建采用了多智能体协作流程，将数据集创建过程系统地分为四个部分：数据挖掘、引用检索、问答标注和数据清洗。数据挖掘阶段通过从高质量文章中提取结构化标题和子标题来构建层次结构化大纲数据。引用检索阶段利用BGE-m3关系提取模型解析和分割维基百科文章内容，并从引用的URL中智能检索和提取文本信息，将其转化为包含关键信息和上下文关系的摘要集。问答标注阶段通过精确的句子分割和幻觉检测算法，为每个段落设计多个动态提示，生成高质量的问答对。数据清洗阶段则从丰富性、相关性和覆盖率三个角度进行严格的数据清洗，确保数据的质量和一致性。

使用方法

DeFine数据集的使用方法包括三个步骤：数据准备、模型训练和模型评估。数据准备阶段包括数据下载、数据预处理和数据清洗。模型训练阶段使用DeFine训练集对模型进行微调，可以使用诸如Qwen2-7b-Instruct等大语言模型。模型评估阶段使用DeFine测试集和FreshWiki测试集对模型的性能进行评估，评估指标包括大纲生成指标和长篇文章质量评估指标。

背景与挑战

背景概述

长篇文章生成（LFAG）是自然语言处理领域的一个挑战性任务，要求模型生成内容丰富、逻辑一致、主题覆盖全面的文章。现有的数据集往往缺乏层级结构和细粒度注释，导致文章生成浅显、组织混乱。为了解决这些局限性，Ming Wang等人于2025年提出了DeFine数据集，这是一个分解和细粒度注释的长篇文章生成数据集。DeFine的特点是其层级分解策略和多级注释的集成，确保了文章生成的粒度控制和深度增强。为了构建这个数据集，他们提出了一种多智能体协同流水线，将生成过程系统地分为四个部分：数据挖掘者、引用检索器、问答注释器和数据清洗器。通过使用DeFine训练数据集微调Qwen2-7b-Instruct模型，实验结果表明，在文本质量、主题覆盖、信息深度和内容忠实度方面都有显著提升。该数据集已公开发布，以促进未来的研究。

当前挑战

DeFine数据集在LFAG任务中面临的主要挑战包括：1)保持逻辑一致性和叙述连贯性；2)全面覆盖主题内容；3)集成来自不同来源的信息并保持整体内容的一致性。构建过程中遇到的挑战包括：1)从高质量文章中提取结构化标题和子标题；2)检索和提取引用URL的内容；3)生成问答数据并应用幻觉检测算法；4)通过多方面清洗数据以确保数据完整性。

常用场景

经典使用场景

DeFine数据集被设计用于支持长篇文章生成（LFAG）任务，特别是在保持逻辑一致性、全面覆盖主题和叙事连贯性方面。该数据集通过其层次分解策略和多级标注的集成，确保了文章生成的粒度控制和深度增强。在构建数据集时，提出了一个多代理协作流程，将生成过程系统地分为四个部分：数据挖掘、引用检索、问答标注和数据清理。为了验证DeFine的有效性，设计了三个LFAG基线：网络检索、本地检索和有根据的参考。使用DeFine训练数据集对Qwen2-7b-Instruct模型进行了微调。实验结果表明，文本质量、主题覆盖范围、信息深度和内容保真度等方面都有显著提高。

解决学术问题

DeFine数据集解决了现有数据集中缺乏层次结构和细粒度标注的问题，这些标注对于有效地分解任务至关重要。通过引入层次分解策略和多级标注，DeFine确保了粒度控制和文章生成的深度增强。此外，DeFine还解决了长篇文章生成中逻辑一致性、事实准确性和引用可靠性等关键挑战。通过实验，DeFine在逻辑连贯性、信息一致性和引用准确性方面显著提高了生成文章的质量，为LFAG任务的研究提供了重要的基准。

实际应用

DeFine数据集的实际应用场景包括但不限于学术研究、新闻报道、博客写作和知识库构建。它可以帮助研究人员和开发者训练和评估长篇文章生成模型，从而提高生成内容的逻辑性和准确性。此外，DeFine还可以用于构建智能写作助手，帮助作者生成结构化、详细且准确的长篇文章。DeFine的实际应用还包括自动生成报告、分析文档和构建交互式问答系统。

数据集最近研究