统计学中文核心期刊知识图谱构建数据集

github2024-07-03 更新2024-07-04 收录

下载链接：

https://github.com/markoov/statistics-neo-llm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于构建统计学中文核心期刊的知识图谱，包含期刊摘要、关键词、题目、作者等信息，用于命名实体识别和微调大语言模型。

This dataset is employed to build knowledge graphs of Chinese core journals in the field of statistics. It encompasses information such as journal abstracts, keywords, titles, and authors, and is applied to named entity recognition and fine-tuning of large language models (LLMs).

创建时间：

2024-06-12

原始信息汇总

数据集概述

命名实体识别

简介

模型：基于BERT-BILSTM-CRF模型。
目的：帮助初学者快速构建NER模型。
数据来源：使用selenium爬取的期刊信息，包括摘要、关键词、题目、作者、通讯作者等。
实体识别任务：从期刊摘要中抽取【研究对象】和【研究方法】。

数据标注

标注方法：采用BIO标注，包含【研究对象】和【研究方法】两类实体。
标注流程：先用GPT4进行初步抽取，再人工核查。
提示词：未使用langchain或llama-index，自行编写提示词。

快速运行

步骤：
1. 克隆项目并安装依赖。
2. 下载BERT模型并配置路径。
3. 开始训练。
训练细节：使用tqdm进行进度条管理，每个epoch进行一次验证，每500步保存一次模型。

使用自己的数据进行训练

数据格式：需构建BIO数据集，包含id、text和label三列。

NEO4j知识图谱构建

导入数据

数据开源：包括原始数据和实体及关系数据。
导入方法：使用py2neo导入数据，或使用命令行neo4j-admin database import full方法。

效果展示

图谱规模：实体数量超过14万个，关系边数量超过32万对。

微调大语言模型

数据准备

数据集：使用GPT4、GPT3.5、Qwen、GLM3等模型构建的统计学问答对数据集。
数据处理：对每个问答对的input进行泛化5次。

训练步骤

步骤：
1. 拉取LLaMA-Factory项目。
2. 配置训练文件和参数。
3. 下载大语言模型文件。
4. 开始训练。

微调模型部署

部署方法：使用peft库导入lora模型的参数，并配置大模型服务。

问答系统

简介

技术栈：使用uvicorn部署大模型服务，使用py2neo和requests连接知识图谱和大语言模型，使用streamlit构建前端界面。
未使用langchain原因：langchain的提示词在中文环境下效果不理想，重新编写提示词以保证问答效果。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程始于对统计学中文核心期刊的深入挖掘，通过使用selenium技术进行数据爬取，获取了包括摘要、关键词、题目、作者及通讯作者在内的多维度信息。随后，采用BERT-BILSTM-CRF模型进行命名实体识别（NER），专注于从期刊摘要中提取‘研究对象’和‘研究方法’两类实体。数据标注采用BIO格式，并借助GPT-4进行初步抽取后进行人工核查，确保数据质量。此外，数据集的构建还包括了NEO4j知识图谱的构建和微调大语言模型的训练，最终形成了一个包含超过14万个实体和32万对关系的知识图谱。

特点

该数据集的显著特点在于其多层次的数据结构和高质量的标注。首先，数据集不仅包含了丰富的期刊信息，还通过NER技术精确提取了研究对象和研究方法，为后续的知识图谱构建提供了坚实基础。其次，数据标注过程中采用了GPT-4进行初步抽取，并辅以人工核查，确保了标注的准确性和可靠性。此外，数据集还结合了NEO4j知识图谱和微调大语言模型，形成了一个集成化的学术资源库，能够支持复杂的学术问答系统。

使用方法

使用该数据集时，用户首先需要克隆项目并安装相关依赖库。随后，可以通过修改配置文件中的模型路径，选择合适的BERT模型进行训练。对于NEO4j知识图谱的构建，用户可以使用py2neo库导入数据，或通过命令行工具进行高效的数据导入。在微调大语言模型方面，用户可以利用LLaMA-Factory框架，配置训练文件并进行模型训练。最终，通过部署大模型服务和连接知识图谱，用户可以构建一个基于NEO4j和微调大语言模型的问答系统，实现高效的学术信息检索和知识发现。

背景与挑战

背景概述

统计学中文核心期刊知识图谱构建数据集是由一支专注于统计学领域的研究团队于2023年创建的。该数据集的核心研究问题是如何从中文核心期刊中提取并构建知识图谱，以便于学术研究和问答系统的开发。主要研究人员通过使用BERT-BILSTM-CRF模型进行命名实体识别，从期刊摘要中抽取‘研究对象’和‘研究方法’，并结合GPT4进行数据标注，确保了数据的高质量。该数据集的构建不仅推动了统计学领域的知识图谱研究，也为后续的微调大语言模型和问答系统的开发提供了坚实的基础。

当前挑战

该数据集在构建过程中面临多项挑战。首先，命名实体识别的准确性依赖于高质量的数据标注，而使用GPT4进行初步抽取后的人工核查工作量巨大。其次，知识图谱的构建需要处理大量的实体和关系数据，如何高效地导入和处理这些数据是一个技术难题。此外，微调大语言模型时，如何平衡训练效率和模型性能，特别是在资源有限的情况下，也是一个重要的挑战。最后，构建基于知识图谱的问答系统时，如何设计有效的提示词和处理复杂的图谱结构，以确保问答的准确性和效率，是该领域面临的主要问题。

常用场景

经典使用场景

统计学中文核心期刊知识图谱构建数据集的经典使用场景在于其能够高效地构建学术领域的知识图谱。通过命名实体识别（NER）技术，该数据集能够从期刊摘要中精准抽取‘研究对象’和‘研究方法’，为后续的知识图谱构建提供坚实基础。结合NEO4j图数据库，这一数据集能够实现实体和关系的有效存储与查询，从而支持复杂的学术研究分析。

实际应用

在实际应用中，统计学中文核心期刊知识图谱构建数据集可广泛应用于学术搜索引擎、智能问答系统以及科研辅助工具等领域。例如，学术搜索引擎可以利用该数据集提升文献检索的准确性和相关性；智能问答系统则可以通过知识图谱快速响应用户的学术查询；科研辅助工具则能够帮助研究者更高效地进行文献综述和研究设计。

衍生相关工作

基于该数据集，已衍生出多项相关工作，包括但不限于：1) 基于NEO4j的知识图谱构建工具，简化了知识图谱的构建流程；2) 微调大语言模型（如LORA），提升了问答系统的准确性和响应速度；3) 结合RAG（Retrieval-Augmented Generation）技术的问答系统，增强了系统对复杂查询的处理能力。这些工作不仅丰富了数据集的应用场景，也推动了相关技术的发展。

以上内容由遇见数据集搜集并总结生成