paper-PTODSKC

github2024-05-25 更新2024-05-31 收录

下载链接：

https://github.com/HaltiaAI/paper-PTODSKC

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于生成KC QLoRA适配器，包含在`data`目录下。`base.jsonl`文件是训练和测试的基础数据集。`train.jsonl`, `test.jsonl`, `valid.jsonl`文件包含用于训练、测试和验证的整个微调集的用户提示和提示响应对。此外，`data/2/`, `data/4/`, `data/8/`文件夹包含用于论文性能评估部分的相同结构，用于2、4、8个提示每个本体概念。

This dataset is utilized for generating KC QLoRA adapters and is located within the `data` directory. The `base.jsonl` file serves as the foundational dataset for both training and testing. The `train.jsonl`, `test.jsonl`, and `valid.jsonl` files encompass the entire fine-tuning set, comprising user prompts and corresponding prompt responses for training, testing, and validation purposes. Additionally, the folders `data/2/`, `data/4/`, and `data/8/` contain the same structure used in the performance evaluation section of the paper, tailored for 2, 4, and 8 prompts per ontological concept, respectively.

创建时间：

2024-05-21

原始信息汇总

数据集概述

数据集结构

基础数据集文件：data/base.jsonl，用于训练和测试。
训练、测试和验证数据集：分别存储在data/train.jsonl、data/test.jsonl和data/valid.jsonl，包含用户提示和响应对。
性能评估数据集：位于data/2/、data/4/和data/8/，用于评估2、4、8个提示每概念的性能。

数据集操作

生成地面真值文件：使用generateGroundTruth.py处理data/test.jsonl，并将结果写入results/test_ground_truth_output/。
模型文件：使用Mistral-7B-Instruct-v0.2-4bit-mlx模型，文件存放于model/Mistral-7B-Instruct-v0.2-4bit-mlx。
适配器：QLoRA适配器存储在adapters/目录。

数据集使用

适配器创建：通过运行命令进行QLoRA适配器的创建和训练。
基准测试：使用runBenchmarks.py评估适配器与模型的性能。
评估：通过calculateF1Score.py计算精度、召回率和F1分数，并将结果写入results/evaluation_results.txt。

引用信息

bash @misc{coplu2024ontologydriven, title={Prompt-{Time} {Ontology}-{Driven} {Symbolic} {Knowledge} {Capture} with {Large} {Language} {Models}}, author={Tolga Çöplü and Arto Bendiken and Andrii Skomorokhov and Eduard Bateiko and Stephen Cobb}, year={2024}, eprint={2405.14012}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模语言模型与时间驱动的本体论符号知识捕获技术。具体而言，数据集的构建过程包括从`data`目录下的`base.jsonl`文件中提取基础数据，并进一步细分为训练集、测试集和验证集，分别存储于`data/train.jsonl`、`data/test.jsonl`和`data/valid.jsonl`中。此外，针对不同数量的提示，数据集还包含了`data/2/`、`data/4/`和`data/8/`等子目录，以支持性能评估。通过`generateGroundTruth.py`脚本，数据集生成了用于性能评估的基准真值文件，确保了数据集的完整性和准确性。

使用方法

使用该数据集时，首先需确保满足所有先决条件和依赖项，包括特定的硬件和操作系统要求。安装过程简便，通过运行`python3 -m pip install -r requirements.txt`即可完成。数据集的使用主要包括模型微调、基准测试和性能评估三个主要步骤。微调过程通过运行`mlx_lm.lora`模块实现，而基准测试和性能评估则分别通过`runBenchmarks.py`和`calculateF1Score.py`脚本完成。这些脚本不仅提供了详细的参数设置，还确保了结果的可重复性和准确性。

背景与挑战

背景概述

paper-PTODSKC数据集是由Tolga Çöplü、Arto Bendiken、Andrii Skomorokhov、Eduard Bateiko和Stephen Cobb等研究人员于2024年创建的，旨在支持论文《Prompt-Time Ontology-Driven Symbolic Knowledge Capture with Large Language Models》的研究。该数据集的核心研究问题是通过大型语言模型实现基于时间提示的本体驱动符号知识捕获。其主要贡献在于为研究人员和开发者提供了一个用于训练和测试的基准数据集，以评估和优化基于本体的知识捕获技术。该数据集的发布对自然语言处理和人工智能领域具有重要影响，特别是在知识图谱和语义推理方面。

当前挑战

paper-PTODSKC数据集在构建过程中面临多个挑战。首先，数据集的生成依赖于复杂的本体结构和符号知识，这要求在数据标注和处理过程中保持高度的准确性和一致性。其次，数据集的多样性和规模使得在训练和测试过程中需要处理大量的用户提示和响应对，这对计算资源和算法效率提出了高要求。此外，由于MLX框架的版本更新可能导致向后不兼容，确保适配器的兼容性和性能评估的准确性也是一个重要挑战。最后，数据集的评估依赖于精确的基准测试和F1分数计算，这需要严格的实验设计和结果验证。

常用场景

经典使用场景

在自然语言处理领域，paper-PTODSKC数据集被广泛用于训练和测试基于大语言模型的符号知识捕获系统。该数据集通过提供丰富的用户提示与响应对，支持模型在不同语境下的知识提取与推理能力。具体而言，研究人员利用`data/train.jsonl`、`data/test.jsonl`和`data/valid.jsonl`文件进行模型的微调，以优化其在特定任务上的表现。此外，`data/2/`、`data/4/`和`data/8/`文件夹中的数据则用于评估模型在不同提示数量下的性能，从而全面了解其适应性和鲁棒性。

解决学术问题

paper-PTODSKC数据集在解决学术研究中的多个关键问题上发挥了重要作用。首先，它为研究人员提供了一个标准化的基准，用于评估和比较不同大语言模型在符号知识捕获任务中的表现。其次，通过提供多样化的提示与响应对，该数据集有助于揭示模型在复杂语境下的推理能力和知识整合能力。此外，数据集的结构设计还支持对模型进行细粒度的性能评估，从而推动了自然语言处理领域在知识捕获与推理方面的研究进展。

实际应用

在实际应用中，paper-PTODSKC数据集为开发智能助手、知识图谱构建和自动化问答系统等提供了坚实的基础。通过利用该数据集进行模型训练和微调，开发者能够显著提升系统在处理复杂查询和多步推理任务中的表现。例如，在智能助手中，经过优化的模型能够更准确地理解用户意图并提供相关知识；在知识图谱构建中，模型能够更高效地从文本中提取实体和关系，从而丰富图谱内容。

数据集最近研究