대학에서 배울 수 있는 학문 데이터 셋

github2022-12-21 更新2024-05-31 收录

下载链接：

https://github.com/boostcampaitech4lv23nlp1/level2_dataannotation_nlp-level2-nlp-07

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在构建一个关于大学中可学习的学科的数据集，通过自然语言处理技术提取学科间的关系，帮助研究者更好地理解学科间的联系，并可能扩展到知识图谱及相关领域的介绍。

This dataset is designed to construct a comprehensive collection of learnable disciplines within universities. By leveraging natural language processing (NLP) techniques, it extracts relationships between various disciplines, aiding researchers in gaining a deeper understanding of the interconnections among them. Furthermore, this dataset has the potential to extend its utility to the construction of knowledge graphs and related fields.

创建时间：

2022-12-06

原始信息汇总

数据集概述

数据集内容

数据集类型：大学学科数据集
数据集目的：通过自然语言处理构建大学学科关系图，明确学科间的区分

数据集构建原因

当前大学学科分类不明确，学生难以清晰区分
通过大量信息进行自然语言学习，基于实际应用构建知识图谱

数据集应用

帮助研究者提取学科间关系
扩展至学科知识图谱及关联领域介绍

项目过程

时间范围：22/12/5 ~ 22/12/15
主要步骤：
- 句子提取及关系头脑风暴
- 基于关系集的试点标记
- 关系图及指南编写
- 主要标记
- 数据制作可靠性验证（IAA：0.88）
- 通过与前一比赛比较的性能比较（f1-score）
  - 基准线：54.45
  - rbert：83.417
- 使用制作的数据构建知识图谱
  - 使用networkx, pyvis构建知识图谱

知识图谱构建示例

类型别可视化
单词别可视化

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大学提供的原始数据，并通过网络爬虫技术进一步扩充。研究团队通过自然语言处理技术，从大量文本中提取出大学学科之间的关系，构建了一个学科关系图谱。数据标注过程包括句子提取、关系头脑风暴、关系集标注、关系图绘制及主标注等步骤，确保了数据的准确性和可靠性。最终，数据集通过IAA（Inter-Annotator Agreement）测试，一致性达到了0.88，表明数据标注具有较高的可信度。

特点

该数据集的核心特点在于其通过自然语言处理技术构建的学科关系图谱。图谱不仅展示了大学中各学科之间的关联，还通过可视化的方式呈现了学科之间的复杂网络结构。数据集涵盖了广泛的学科领域，能够为研究者提供丰富的学科关系信息。此外，数据集的构建过程中采用了严格的标注流程和质量控制措施，确保了数据的准确性和一致性。

使用方法

该数据集适用于研究大学学科关系的学者和教育工作者。用户可以通过加载数据集，利用提供的代码和工具进行学科关系图谱的可视化分析。数据集支持多种自然语言处理模型的训练和评估，用户可以根据需求选择合适的模型进行实验。此外，数据集还提供了详细的标注指南和示例代码，帮助用户快速上手并进行深入的数据分析。

背景与挑战

背景概述

《대학에서 배울 수 있는 학문 데이터 셋》是由김한성、염성현、이재욱、최동민、홍인희等研究人员于2022年12月共同构建的一个专注于大学学科关系的数据集。该数据集的构建旨在通过自然语言处理技术，解决大学学科分类不明确的问题，并为学术界提供一个基于实际应用的知识图谱。数据集的核心研究问题在于如何从大量文本数据中提取出大学学科之间的关系，并构建一个能够反映学科实际应用的知识图谱。该数据集不仅为研究者提供了学科关系的可视化工具，还通过知识图谱的构建，推动了学科分类与关联研究的深入发展。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1) 学科关系的复杂性。由于大学学科之间的关联性多样且复杂，如何准确提取并分类这些关系是一个技术难题；2) 数据标注的一致性。在数据标注过程中，确保不同标注者之间的一致性（IAA值为0.88）是一个关键挑战；3) 知识图谱的构建与优化。尽管使用了networkx和pyvis等工具进行知识图谱的构建，但在大规模数据处理和可视化优化方面仍存在技术瓶颈。此外，如何进一步提升模型的性能（如从baseline的54.45提升至rbert的83.417）也是未来需要解决的重要问题。

常用场景

经典使用场景

该数据集主要用于构建大学学科之间的关系图，通过自然语言处理技术，从大量文本数据中提取学科间的关联性，进而生成可视化的知识图谱。这一过程不仅帮助研究者理解各学科之间的内在联系，还为教育领域的课程设计和学科规划提供了科学依据。

解决学术问题

该数据集解决了大学学科分类不明确的问题，通过构建学科关系图，帮助研究者和学生更清晰地理解各学科之间的关联。此外，数据集还为自然语言处理领域提供了新的研究方向，推动了知识图谱构建技术的发展。

衍生相关工作

基于该数据集，研究者们开发了多种知识图谱构建工具和算法，如使用NetworkX和PyVis进行可视化分析。此外，该数据集还衍生出了一系列关于学科关系的研究论文，进一步推动了教育学和自然语言处理领域的交叉研究。这些工作不仅丰富了数据集的应用场景，还为相关领域的研究者提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成