TIB-SID (TIB Subject Indexing Dataset)
收藏arXiv2026-03-11 更新2026-03-13 收录
下载链接:
https://github.com/sciknoworg/tib-sid
下载链接
链接失效反馈官方服务:
资源简介:
TIB-SID是由TIB莱布尼茨中心主导构建的双语(英语/德语)多领域图书馆目录数据集,包含13.6万条标注德国规范文档(GND)主题词的编目记录,涵盖文章、书籍、会议论文等五大文献类型。数据集采用JSON-LD格式存储,包含标题、摘要等元数据,并预置训练集/验证集/测试集划分。其特色在于将大规模文本分类任务与权威知识组织系统结合,通过GND的20.7万个主题词及其层级关系,支持面向图书馆实际需求的语义索引研究,适用于多语言主题映射、检索增强分类等数字图书馆AI应用场景。
TIB-SID is a bilingual (English/German) multi-domain library catalog dataset developed and led by the TIB Leibniz Centre. It contains 136,000 catalog records annotated with subject terms from the German National Authority File (GND), covering five types of literature including journal articles, books, conference papers and others. The dataset is stored in JSON-LD format, includes metadata such as titles and abstracts, and has pre-defined training, validation and test set splits. A distinctive feature of TIB-SID is its integration of large-scale text classification tasks with authoritative knowledge organization systems: by leveraging the 207,000 GND subject terms and their hierarchical relationships, it supports semantic indexing research tailored to the actual operational needs of libraries, and is applicable to AI application scenarios in digital libraries such as multilingual subject mapping and retrieval-augmented classification.
提供机构:
TIB莱布尼茨科学与技术信息中心; 德国国家图书馆; 乌迪内大学; 芬兰国家图书馆
创建时间:
2026-03-11
原始信息汇总
TIB-SID 数据集概述
数据集名称
TIB Subject Indexing Dataset (TIB-SID)
核心定位
TIB-SID 是一个用于极端多标签文本分类 (XMTC) 的双语基准数据集,基于真实的图书馆记录。它专为领域分类和基于GND的主题标引而设计。该数据集结合了大规模、结构化、受控的标签空间,以及长尾稀疏性、跨语言差异和现实世界的领域不平衡,使其比标准的文本分类基准更接近实际的图书馆编目操作。
关键数据指标
- 记录数量:136,569 条图书馆记录
- 数据格式:JSON-LD
- 基准划分:包含预定义的训练集、开发集和测试集划分
- 语言:英语和德语
- 领域数量:28个(领域列表文件:https://github.com/sciknoworg/tib-sid/blob/main/28_domains_list.csv)
- 记录类型:文章、书籍、会议文献、报告、学位论文
数据获取
数据集下载地址:https://github.com/sciknoworg/tib-sid/tree/main/library-records-dataset/data
相关背景
TIB-SID 通过 LLMs4Subjects 共享任务(于2025年组织)被引入。全球参与团队在该数据集上开发并评估了超过12个基于LLM的系统。相关共享任务网站提供了更多背景、任务详情和排行榜结果。
- LLMs4Subjects @ SemEval: https://sites.google.com/view/llms4subjects
- LLMs4Subjects @ GermEval: https://sites.google.com/view/llms4subjects-germeval/
引用信息
引用信息即将发布。
许可协议
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。
搜集汇总
数据集介绍
构建方式
TIB-SID数据集的构建源于对图书馆目录记录规模化、多语言主题索引需求的响应。该数据集以TIB(莱布尼茨科学与技术信息中心)的开放数据为基础,通过系统化预处理流程提炼而成。原始数据经过语言识别,仅保留英语和德语记录;随后剔除无摘要或缺乏GND(集成规范文档)主题标注的条目,并过滤了期刊、章节等非目标文献类型。最终形成的语料库包含136,569条记录,每条记录均以JSON-LD格式封装,集成了标题、摘要等元数据,并通过dcterms:subject字段与GND权威词表中的受控概念标识符稳定关联。数据集的训练、开发和测试划分已预先定义,确保了机器学习研究的可复现性。
使用方法
该数据集主要支持极端多标签文本分类(XMTC)及相关任务的研究与应用。使用者可利用其预划分的训练、开发和测试集,开发并评估将自由文本映射到GND受控词汇的自动化主题索引模型。典型方法包括基于嵌入的语义检索、层次化分类模型、以及结合大型语言模型的混合工作流程。评估时,除了常规的准确率指标,更应关注nDCG@k等排名敏感度量,以反映实际编目工作中“前k个建议”的实用性。数据集还支持对多语言一致性、标签稀疏性、以及层次连贯性等专业问题的探究。研究者可通过GitHub公开仓库获取数据,并参考提供的基线系统(如基于ANNIF的工具链或检索增强生成方法)进行实验,以推动图书馆科学中可信赖AI助手的发展。
背景与挑战
背景概述
TIB-SID(TIB主题标引数据集)由德国莱布尼茨科学与技术信息中心(TIB)联合多国研究机构于2026年发布,旨在应对数字图书馆中多语言主题标引的规模化挑战。该数据集包含13.6万条英德双语编目记录,标注基于德国集成规范档(GND)的受控主题词,并配套提供机器可操作的GND分类体系。其核心研究问题聚焦于如何利用极端多标签文本分类技术,实现自由文本与权威词汇表的精准映射,以支持自动化、可审计的智能编目辅助系统。该资源填补了图书馆学与人工智能交叉领域的空白,为多语言知识组织、语义检索及人机协同工作流程提供了标准化评估基准。
当前挑战
TIB-SID数据集面临的挑战主要体现在两方面:在领域问题层面,极端多标签分类任务需处理GND中超过20万个主题词的长尾分布,模型必须兼顾高频通用概念与低频专业术语的平衡预测,同时解决跨语言语义对齐、词汇多义性消歧及领域分布偏移等复杂问题。在构建过程中,挑战包括从异构的图书馆原始数据中提取高质量双语记录,需克服元数据缺失、语言标签噪声以及编目记录稀疏性等障碍;此外,将非结构化的MARC 21格式权威数据转换为机器可读的JSON表示,并保持分类体系的结构化语义完整性,亦是一项关键工程难题。
常用场景
经典使用场景
在数字图书馆与信息科学领域,主题标引是确保馆藏资源可发现性与互操作性的核心环节。TIB-SID数据集作为大规模双语(英语/德语)编目记录语料库,其最经典的使用场景在于为极端多标签文本分类研究提供权威基准。该数据集将超过13万条编目记录与德国集成规范文档的受控词汇表相链接,支持研究者开发能够自动将文献标题与摘要映射到精细主题术语的算法。这种场景不仅模拟了图书馆实际标引工作流程,还为评估模型在真实长尾分布和多语言环境下的性能提供了结构化测试平台。
解决学术问题
该数据集有效解决了信息组织领域的若干关键学术问题。首先,它针对受控词汇表与自由文本之间的语义对齐难题,为研究基于本体的多标签分类提供了数据基础。其次,数据集内含的GND分类法层级结构与多语言变体标签,使得学者能够深入探究跨语言一致性、术语多义性以及标签稀疏性下的模型可靠性等议题。相较于通用XMTC基准,TIB-SID将大规模文本分类与知识组织系统相结合,推动了面向实际应用、以权威性为锚点的评估范式发展,弥补了传统方法仅关注准确率而忽视实用性与透明度的局限。
实际应用
在实际应用层面,TIB-SID直接服务于图书馆的自动化标引工作流程。面对馆藏资源快速增长与多语言处理需求,人工标引已难以持续。该数据集支撑开发的AI辅助系统能够为编目员提供实时主题建议,实现人机协同的智能编目。例如,系统可基于文献内容检索相似记录并迁移其主题标签,或通过语义嵌入直接匹配权威术语,显著提升标引效率与一致性。这种应用不仅减轻了专业人员的重复性劳动,还确保了标引结果与图书馆既可信赖的规范词汇体系相衔接,增强了知识发现的精准度与覆盖面。
数据集最近研究
最新研究方向
在数字图书馆与知识组织领域,TIB-SID数据集的发布推动了基于权威词表的极端多标签文本分类研究的前沿探索。当前研究聚焦于利用大语言模型与检索增强生成技术,实现多语言环境下文本到规范主题词的精准映射,同时强调模型的可解释性及其在编目员工作流程中的实用价值。该数据集促进了面向长尾分布、跨语言一致性与层次一致性的算法创新,为构建可信赖的AI辅助标引系统提供了关键基准,推动了图书馆科学与人工智能的深度融合。
相关研究论文
- 1An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?TIB莱布尼茨科学与技术信息中心; 德国国家图书馆; 乌迪内大学; 芬兰国家图书馆 · 2026年
以上内容由遇见数据集搜集并总结生成



