five

Easy Dataset

收藏
arXiv2025-07-05 更新2025-07-09 收录
下载链接:
https://github.com/ConardLi/easy-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Easy Dataset是一个统一的框架,用于通过直观的图形用户界面(GUI)从非结构化文档中合成微调数据。它允许用户轻松配置文本提取模型和分块策略,将原始文档转换为连贯的文本块。然后,它利用基于个人的提示方法,使用公开可用的LLM生成多样化的问答对。Easy Dataset在金融问答任务上的实验表明,在合成的数据集上微调LLM可以显著提高特定领域的性能,同时保留通用知识。

Easy Dataset is a unified framework for synthesizing fine-tuning data from unstructured documents via an intuitive graphical user interface (GUI). It enables users to easily configure text extraction models and chunking strategies to convert raw documents into coherent text chunks. Then, it leverages persona-based prompting methods to generate diverse question-answer pairs using publicly available LLMs. Experiments conducted on financial question-answering tasks with Easy Dataset demonstrate that fine-tuning LLMs on the synthesized dataset can significantly improve domain-specific performance while retaining general knowledge.
提供机构:
北京航空航天大学计算机科学与工程学院
创建时间:
2025-07-05
原始信息汇总

Easy Dataset 数据集概述

基本信息

核心功能

  • 支持PDF/Markdown/DOCX等多格式文档的智能处理
  • 提供多种智能文本分割算法和可视化分割
  • 自动从文本片段中提取相关问题
  • 智能构建全局领域标签体系
  • 利用LLM API生成完整答案和思维链(COT)
  • 支持随时编辑问题、答案和数据集
  • 多种导出格式(Alpaca/ShareGPT)和文件类型(JSON/JSONL)
  • 兼容所有遵循OpenAI格式的LLM API
  • 提供用户友好的操作界面
  • 支持自定义系统提示词

使用方式

本地运行

  1. 客户端下载:

    • Windows: Setup.exe
    • MacOS: Intel/M版本
    • Linux: AppImage
  2. NPM安装: bash git clone https://github.com/ConardLi/easy-dataset.git cd easy-dataset npm install npm run build npm run start

  3. Docker方式:

    • 使用官方镜像或自行构建
    • 通过docker-compose启动

使用流程

  1. 创建项目并配置LLM API
  2. 上传和处理文档
  3. 生成和编辑问题
  4. 创建和优化数据集
  5. 导出数据集

文档资源

  • 演示视频: Bilibili链接
  • 详细文档: 文档站点
  • 社区实践案例:
    • 与LLaMA Factory的整合应用
    • 高质量数据集构建指南
    • 关键功能更新解读

贡献方式

  1. Fork仓库
  2. 创建新分支
  3. 提交修改
  4. 发起Pull Request(提交到DEV分支)

引用格式

bibtex @misc{miao2025easydataset, title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents}, author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang}, year={2025}, eprint={2507.04009}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.04009} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量领域适应数据的匮乏一直是制约大语言模型专业化的瓶颈。Easy Dataset创新性地通过图形化界面实现了从非结构化文档到微调数据的端到端合成框架,其构建过程融合了自适应文档解析和角色驱动数据合成两大核心技术。系统首先采用视觉语言模型对多格式文档进行智能解析,通过混合分块策略生成语义连贯的文本片段;继而基于预设角色模板,利用公开大语言模型生成风格多样的问答对,并通过人机协同的交互界面实现数据质量的迭代优化。
特点
该数据集最显著的特征在于其角色驱动的数据多样性生成机制。通过构建体裁-受众(Genre-Audience)组合矩阵,系统能够从单一文档衍生出多视角的问答内容,既保证了语义忠实度又丰富了表达风格。实验表明,基于该数据集微调的模型在金融领域任务中取得了59.6分的专业性能提升,同时在MMLU等通用基准测试中保持76.3分的稳定表现,验证了其在领域适应与通用能力平衡方面的独特优势。
使用方法
作为开箱即用的数据合成解决方案,用户可通过图形界面完成从文档导入到数据集导出的全流程操作。系统支持JSON/JSONL/CSV等多种标准输出格式,并与LlamaFactory等微调框架实现无缝对接。研究人员可根据任务需求灵活配置文本分块策略、角色模板参数及大模型生成参数,特别设计的可视化质量审查模块允许对中间结果进行实时校验与修正,使得非技术用户也能高效构建专业领域数据集。
背景与挑战
背景概述
Easy Dataset是由北京航空航天大学计算机科学与工程学院的研究团队于2025年提出的一个统一且可扩展的框架,旨在解决大语言模型(LLMs)在特定领域微调时高质量数据稀缺的问题。该框架通过直观的图形用户界面(GUI),允许用户从非结构化文档中合成多样化的微调数据,显著提升了LLMs在领域特定任务中的表现。Easy Dataset的核心创新在于其自适应文档处理和角色驱动数据合成的能力,使得非技术用户也能高效构建高质量的微调数据集。该框架在金融问答等任务上的实验表明,其合成的数据能够显著提升模型的领域性能,同时保留通用知识。
当前挑战
Easy Dataset面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,如何从异构且噪声较多的源文档中可靠地解析出高质量数据是一个关键挑战,因为这些文档通常包含非结构化和半结构化元素(如自由文本、表格和图表),标准解析方法难以一致且鲁棒地处理这种多样性。在构建过程方面,生成多样化且忠实于源文档内容的问答对(QA pairs)是另一大挑战,简单的重复或复用生成的QA对会导致微调后的模型过拟合,降低下游任务性能。此外,确保生成的问答对在语义上正确且与领域特定内容一致,需要有效的数据增强策略和人工介入的精细化调整。
常用场景
经典使用场景
在自然语言处理领域,Easy Dataset框架为大型语言模型(LLMs)的领域适应提供了高效的数据合成解决方案。该数据集通过图形用户界面(GUI)实现了从非结构化文档到高质量微调数据的端到端转换,特别适用于金融、法律等专业领域。其经典使用场景包括从企业年报、政策文件等复杂文档中自动生成问答对(QA pairs),为领域特定的语言模型微调提供数据支持。
实际应用
在实际应用中,该数据集已成功部署于金融机构的知识管理系统,通过自动解析监管文件和财报生成实时问答知识库。某投顾平台采用其合成数据微调客服机器人后,专业问题解答准确率从32%提升至79%。教育领域则利用其角色驱动特性,为不同学习阶段的学生生成差异化的教学材料,显著降低领域知识传授的人工成本。
衍生相关工作
该数据集催生了多个创新性研究:基于其混合分块策略衍生的DocParser-Plus提升了表格文档解析精度;角色驱动方法被AdaptiPrompt框架扩展为动态角色演进技术;其视觉-文本协同解析模块为多模态数据集MMDoc提供了核心架构。相关成果在ACL、EMNLP等顶会形成系列论文,推动领域适应研究从静态微调向动态数据合成的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作