LLMs4Subjects

github2025-03-07 更新2025-03-05 收录

下载链接：

https://github.com/sciknoworg/llms4subjects

下载链接

链接失效反馈

官方服务：

资源简介：

LLMs4Subjects共享任务数据集，包含经过预处理的GND学科分类和TIBKAT技术记录数据集，用于自动索引和分类德国国家科学和技术图书馆的技术记录。

The LLMs4Subjects Shared Task Dataset comprises preprocessed GND subject classification and TIBKAT technical report datasets, and is intended for automatic indexing and classification of technical records from the German National Library of Science and Technology.

创建时间：

2025-03-03

原始信息汇总

LLMs4Subjects 数据集概述

数据集简介

任务目标：开发基于大型语言模型（LLM）的解决方案，实现自动化主题索引和分类。
领域分类：涉及领域分类和主题标记，使用GND（Gemeinsame Normdatei）作为权威文件。
语言：主要聚焦于英文和德文的技术记录。

数据集内容

GND主题分类：提供经过人工整理的GND主题分类。
技术记录数据集：包含来自TIB开放获取收藏的技术记录，标注有领域和GND主题，支持英文和德文。

数据集组成

shared-task-datasets：包含人工整理的GND主题分类和TIBKAT记录的训练与开发集。
supplementary-datasets：包含未包含在LLMs4Subjects共享任务中的开放获取GND和TIBKAT数据集。
shared-task-eval-script：包含用于生成LLMs4Subjects参与者团队提交的定量评估结果的官方评估脚本。

联系方式

邮箱：llms4subjects [at] gmail.com

版权信息

授权：本数据集遵循Creative Commons Attribution-ShareAlike 4.0国际许可。

搜集汇总

数据集介绍

构建方式

LLMs4Subjects数据集的构建基于对德国国家科学与技术图书馆TIB的开放访问目录TIBKAT的筛选与加工，选取包含摘要元数据的记录，并限定为五种最具代表性的技术记录类型：文章、书籍、会议、报告和论文。数据集包括经过预处理的GND主题分类的人类可读形式以及标注有领域和GND主题的大型技术记录数据集，分别提供英文和德文两种语言版本。

特点

该数据集的特点在于其综合了人类可读的GND主题分类和大规模的技术记录，这些记录经过专家预处理，将细致的编码转换为人类可读的格式，极大地方便了研究人员的使用。此外，数据集聚焦于英德两种语言，要求系统展示双语的建模能力，符合实际应用场景的需求。

使用方法

参与者可从指定的GitHub子文件夹中下载相关文件，包括人类可读的GND主题分类和TIBKAT记录的训练与发展集。此外，还提供了补充数据集以及官方评估脚本，以帮助参与者进行系统开发与评估。

背景与挑战

背景概述

LLMs4Subjects数据集，作为GermEval 2025共享任务的一部分，旨在推动研究社区开发基于大型语言模型（LLM）的先进语义解决方案，实现自动化主题索引和分类。该数据集由德国国家科学技术图书馆（TIB）的丰富技术记录构成，涉及领域分类与主题标记，依托于国际权威文件GND（Gemeinsame Normdatei），此文件主要由德语区图书馆用于编目和链接信息。该数据集的创建，为研究者在多语言技术记录的自动化处理领域提供了宝贵的资源，对于提升图书馆信息服务自动化水平具有重要意义。

当前挑战

LLMs4Subjects数据集在研究领域面临的挑战主要包括：如何利用LLM进行有效的领域分类和主题标记，特别是在处理英语和德语两种语言的技术记录时，系统需要展现双语的建模能力。此外，数据集构建过程中，涉及将标准化图书馆分类法与集合中的细粒度编码转换为人类可读格式，这一预处理步骤对于参赛者迅速上手至关重要。成功解决方案的难点还在于，它们可能需要直接集成到TIB Leibniz信息中心的运营工作流程中，这要求解决方案不仅要技术上可行，还要在实际操作中高效、准确。

常用场景

经典使用场景

针对图书馆学与技术领域，LLMs4Subjects数据集提供了一个独特的研究平台，其经典使用场景在于开发先进的语言模型，特别是大型语言模型（LLM），以实现技术记录的自动化主题索引和分类。通过该数据集，研究者能够训练模型以识别和标注技术记录中的领域分类和GND主题，进而促进信息的有序组织和高效检索。

衍生相关工作

基于LLMs4Subjects数据集，学术界已经衍生出一系列相关研究工作，包括但不限于对LLM在不同语言和领域中的应用研究，以及如何将LLM集成到图书馆工作流程中的探索。这些研究不仅推动了信息科学领域的理论发展，也为实践中的应用提供了技术支持。

数据集最近研究