OGC_Nuclear

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/racineai/OGC_Nuclear

下载链接

链接失效反馈

官方服务：

资源简介：

OGC_Nuclear是一个专注于核技术文档、规定和法律框架的经过人工精选的多模态数据集。它整合了从真实的科学和监管PDF中提取的文本和图像数据，用于支持问题回答、视觉问题回答、文本检索等任务，以及视觉语言模型的训练。

创建时间：

2025-08-21

原始信息汇总

OGC_Nuclear 数据集概述

数据集摘要

OGC_Nuclear 是一个精心策划的多模态数据集，专注于核技术文档、法规和法律框架。它结合了从真实科学和法规 PDF 文件中提取的文本和图像数据，支持 RAG DSE、问答、文档搜索和视觉语言模型训练等任务。

数据集创建

该数据集使用开源工具 OGC_pdf-to-parquet 创建。

核相关 PDF 文件从公共在线来源收集，主要关注国际、欧盟和法国在核领域的法规和法律。每个文档在处理前都经过手动清理和策划，包括删除空白页、标题页、目录和其他无关内容，以确保最佳数据集质量。

清理后的文档逐页处理，提取文本，将页面转换为高分辨率图像，并生成带有相应答案的合成技术查询。

使用 Google 的 Gemini 2.5 Flash 模型在自定义管道中生成多样化、专家级的问题和与每页内容一致的全面答案。

数据字段

数据集中的每个条目包含：

id（字符串）：样本的唯一标识符
query（字符串）：从该页面生成的合成技术问题
answer（字符串）：对相应查询的全面答案
image（PIL.Image）：PDF 页面的视觉渲染
language（字符串）：检测到的查询语言

数据生成

每个页面产生 4 个独特条目：一个主要技术查询、一个次要查询、一个基于视觉的问题和一个多模态语义查询，所有条目都带有相应的答案。

支持的任务

该数据集旨在支持：

问答：在核监管内容上训练和评估模型
视觉问答：技术文档的多模态理解
文档检索：为法律和技术核文档开发搜索系统
文本生成：从监管来源自动生成问答
领域特定应用：核文档分析、合规性检查和监管理解

数据集用例

在核监管内容上训练和评估视觉语言模型
为法律和技术核文档开发多模态搜索或检索系统
从监管和技术来源自动生成问答的研究
增强核文档分析、合规性检查和监管理解的工具
支持核政策和监管的法律和技术研究

数据集策划者

Yumeng Ye
Léo Appourchaux

基本信息

许可证：apache-2.0
任务类别：问答、视觉问答、文本检索
语言：英语、法语、德语、意大利语、西班牙语
标签：核、法规、法律、多模态、技术文档、视觉语言、RAG

搜集汇总

数据集介绍

构建方式

在核能技术文档与法规领域，OGC_Nuclear数据集的构建采用了系统化流程。原始PDF文档来源于国际组织、欧盟及法国公开的核能法规文件，经过人工清洗剔除无关内容后，通过开源工具进行页面级解析。每页文本与高分辨率图像被同步提取，并利用Gemini 2.5 Flash模型生成专业级技术问答对，确保内容与页面语义高度吻合。

特点

该数据集凸显多模态特性，融合文本与图像数据，涵盖英法德意西五种语言。每个页面衍生四种问答类型：主技术问答、次级问答、视觉问答及多模态语义问答，形成丰富的语义层次。数据内容聚焦核能法规与技术文档，兼具专业深度与语言多样性，为领域研究提供立体化资源支撑。

使用方法

研究者可借助该数据集训练多模态问答模型，适用于核能法规检索、视觉文档理解等任务。数据条目包含唯一标识符、合成技术问题、详实答案及对应页面图像，支持端到端模型训练。其多语言特性便于跨语言检索系统开发，而高质量问答对可为合规检查与政策研究提供基准数据。

背景与挑战

背景概述

核能技术监管领域长期面临着专业文档多模态处理的挑战，OGC_Nuclear数据集应运而生。该数据集由RacineAIOS团队于当代创建，主要研究者Yumeng Ye和Léo Appourchaux通过系统化收集国际组织、欧盟及法国的核能法规文献，构建了这个融合文本与视觉信息的多模态语料库。其核心在于解决核能领域技术文档与法律框架的智能化解析问题，为检索增强生成、视觉问答等前沿研究方向提供了珍贵的实验数据，显著推动了核能合规检查与政策研究的技术进展。

当前挑战

构建核能专业数据集面临双重挑战：领域层面需精准处理高度专业化的技术术语与跨语言法规体系，确保多模态模型能理解复杂的核能安全规范与法律条文；构建过程中则需克服PDF文档结构解析的复杂性，包括非文本元素的过滤与高质量视觉渲染，同时依赖大语言模型生成专家级问答对时需保持技术准确性与上下文一致性，这对数据清洗与生成管道的可靠性提出了极高要求。

常用场景

经典使用场景

在核能监管与技术文档分析领域，OGC_Nuclear数据集通过融合文本与图像数据，为多模态检索增强生成系统提供核心训练资源。其典型应用场景包括基于核能法规文档的智能问答系统开发，模型能够同时解析技术文本与图表数据，实现对复杂核能政策条款的精准解读与跨模态信息关联。

解决学术问题

该数据集有效解决了核能领域专业文档的多模态理解难题，为学术研究提供了标准化评估基准。其意义在于填补了核能法规智能化分析的数据空白，支持跨语言核能政策对比研究，推动法律文本计算分析范式从单一模态向多模态协同演进，显著提升领域知识提取的准确性与完整性。

衍生相关工作

基于该数据集衍生的经典工作包括核能法规多模态检索框架NukeRetriever，其采用视觉-文本跨模态对齐技术实现高精度文档定位。另有关研究构建了核安全合规自动评估系统RegCheck，通过融合视觉问答与文本推理技术，实现对技术文档与监管要求的一致性验证，推动核能数字化监管技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集