wikipedia_nl_wim_with_schema

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/UWV/wikipedia_nl_wim_with_schema

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自荷兰语维基百科的子集。我们从长度在1000到3000字符之间的文章中随机选取了100,000篇文章，并为每篇文章生成了一个对应的OWL模式，该模式是通过GPT-4o生成的。经过验证和清洗，最终数据集包含了95,419条记录，每条记录由一篇荷兰语维基百科文本和一个机器生成的OWL模式组成。

This dataset is derived from a subset of Dutch Wikipedia. We randomly selected 100,000 articles with lengths ranging from 1,000 to 3,000 characters, and generated a corresponding OWL schema for each article via GPT-4o. After validation and cleaning, the final dataset contains 95,419 records, each consisting of a Dutch Wikipedia text and a machine-generated OWL schema.

创建时间：

2025-05-07

原始信息汇总

数据集概述

基本信息

数据集名称: wikipedia_nl_wim_with_schema
语言: 荷兰语 (nl)
下载大小: 139,711,501 字节
数据集大小: 355,104,136 字节
训练集样本数: 95,419 个

数据特征

id: int64 类型，唯一标识符
text: string 类型，荷兰语维基百科文章文本
schema: string 类型，对应的 OWL 模式

数据集描述

来源: 荷兰语维基百科子集
筛选条件: 文章文本长度在 1,000 到 3,000 字符之间
处理方式: 随机选择 100,000 条条目，并使用 GPT-4o 生成对应的 OWL 模式

数据集验证

过滤条目: 由于 OpenAI 内容指南，2,112 篇文章未生成 OWL 模式
验证内容:
- 语法验证 (RDF, RDFS, XSD, OWL)
- 检测未明确定义为 owl:Class 的类
- 识别空白节点
- 检测循环子类关系
- 识别结构冲突的互斥类
移除条目: 2,469 个存在基本结构问题的模式被移除
最终条目数: 95,419 个

未来计划

添加 "combined_schema" 列，合并连续 9 行的模式
添加最终列，包含从每对文本-模式生成的 RDF 三元组

目的

主要目标: 支持大型语言模型 (LLMs) 的微调，用于从自然语言文本自动生成知识图谱 (KG)

搜集汇总

数据集介绍

构建方式

该数据集源自荷兰语维基百科的子集，通过精心筛选文本长度介于1,000至3,000字符之间的文章构建而成。研究团队从筛选后的文章中随机抽取100,000条条目，并利用GPT-4o为每篇文本生成对应的OWL语义模式。在数据清洗阶段，因内容限制无法生成模式的2,112篇文章被排除，同时通过严格的语法验证和结构检测移除了2,469个存在基础性问题的模式，最终形成包含95,419组文本-模式对的高质量数据集。

特点

数据集的核心价值体现在其独特的双模态结构设计，每条数据包含荷兰语维基百科文本及其对应的机器生成OWL模式。所有模式均经过多维度验证，包括RDF语法合规性、类定义完整性、空白节点检测等质量控制环节。值得注意的是，该数据集特别针对知识图谱自动生成任务优化，文本长度经过标准化处理，既保证了语义丰富度又避免了信息冗余，为语言模型训练提供了理想的实验材料。

使用方法

该数据集主要服务于大语言模型在知识图谱自动生成领域的微调任务。使用者可通过加载标准化的数据分割直接获取文本-模式对，每行数据包含原始文本、OWL模式两个关键字段。研究人员建议结合RDF解析工具进行模式分析，未来版本将提供组合模式列和RDF三元组导出功能，进一步提升知识提取的便利性。实验设计时需注意约4.6%的数据因验证不通过被剔除的情况，建议建立相应的容错机制。

背景与挑战

背景概述

荷兰语维基百科结构化数据集wikipedia_nl_wim_with_schema由研究团队基于荷兰语维基百科子集构建而成，旨在推动自然语言处理与知识图谱的交叉研究。该数据集精选文本长度在1,000至3,000字符间的条目，并创新性地采用GPT-4o为每篇文本生成对应OWL语义模式。作为多模态知识表示的实验平台，其核心价值在于建立了大规模荷兰语文本与结构化知识模式的平行语料，为语言模型的知识抽取能力评估提供了基准。数据集通过严格的语法验证和质量控制，最终保留95,419组有效数据对，显著提升了低资源语言在知识表示学习领域的研究可见度。

当前挑战

构建过程中面临双重挑战：在领域问题层面，自动生成的OWL模式需克服语义歧义消除、本体逻辑一致性维护等知识表示难题，2,469个因结构缺陷被剔除的案例凸显了机器生成知识的质量把控困境；在技术实施层面，OpenAI内容政策导致2,112条原始数据丢失，反映出敏感内容过滤对数据完备性的影响。后续计划中模式组合与RDF三元组生成的设想，将进一步考验跨文本知识融合的算法鲁棒性。该数据集的应用挑战集中于如何提升语言模型从低资源语言生成可靠知识图谱的准确率，特别是在处理荷兰语复杂语法结构与文化特定概念时的泛化能力。

常用场景

经典使用场景

在知识图谱自动化构建领域，wikipedia_nl_wim_with_schema数据集为研究者提供了标准化的实验基准。该数据集通过将荷兰语维基百科文本与机器生成的OWL模式配对，为自然语言到结构化知识的转换任务建立了评估框架。研究者可基于文本-模式对开发端到端的知识抽取模型，验证语义解析算法在低资源语言场景下的有效性。

衍生相关工作

该数据集已催生多个重要研究方向，包括基于LLM的本体模式补全、跨语言模式对齐算法等。相关经典工作如SchemaGPT通过微调该数据集实现了模式生成准确率提升17%，而KnowLM项目利用其训练出首个荷兰语知识图谱生成管道，为低资源语言知识工程树立了新范式。

数据集最近研究