five

miquelCanal/DBpediaOntoTrain

收藏
Hugging Face2025-07-29 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/miquelCanal/DBpediaOntoTrain
下载链接
链接失效反馈
官方服务:
资源简介:
DBpediaOntoTrain是一个质量分割的本体数据集,包含1,766个OWL本体,以Turtle格式存储,从DBpedia Archivo中提取,并为了大型语言模型(LLM)的本体生成和完成任务的持续预训练而准备。每个本体都使用一组语义质量度量进行分析,通过LLaMA 3.2分词器进行分词,并按质量分数(QS)排序。数据集包括累积词计数和百分比,允许根据质量进行精确的训练切片。

DBpediaOntoTrain is a quality-segmented ontology dataset containing 1,766 OWL ontologies in Turtle format, extracted from DBpedia Archivo and prepared for continual pretraining of Large Language Models (LLMs) in ontology generation and completion tasks. Each ontology is analyzed using a set of semantic quality metrics, tokenized with the LLaMA 3.2 tokenizer, and sorted by Quality Score (QS). The dataset includes cumulative token counts and percentages, allowing precise and reproducible slicing for quality-aware training.
提供机构:
miquelCanal
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作