SHELF
收藏Hugging Face2025-12-13 更新2025-12-14 收录
下载链接:
https://huggingface.co/datasets/mjbommar/SHELF
下载链接
链接失效反馈官方服务:
资源简介:
SHELF是一个用于评估语言模型在书目分类、检索和聚类任务上适应性的合成基准数据集,使用美国国会图书馆分类法。数据集包含40,100个合成文档,标注了以下分类法:1. LCC(国会图书馆分类法):21个主题类别(A-Z);2. LCGFT(国会图书馆体裁/形式术语):14个类别,133种具体形式;3. 主题:112个主题标题(多标签);4. 地理:44个位置映射到8个区域(多标签);5. 受众:25种目标受众类型;6. 语体:8种写作风格(学术、专业、随意等)。数据集设计用于文档分类、文档检索、文档聚类和配对分类等多种任务。
SHELF is a synthetic benchmark dataset for evaluating the adaptability of language models on bibliographic classification, retrieval and clustering tasks, using the Library of Congress Classification system. The dataset includes 40,100 synthetic documents annotated with the following taxonomies:
1. LCC (Library of Congress Classification): 21 subject categories (A-Z);
2. LCGFT (Library of Congress Genre/Form Terms): 14 categories and 133 specific forms;
3. Topics: 112 multi-label subject headings;
4. Geography: 44 locations mapped to 8 regions (multi-label);
5. Audience: 25 target audience types;
6. Writing styles: 8 categories including academic, professional, casual, etc.
This dataset is designed to support multiple tasks including document classification, document retrieval, document clustering and pairwise classification.
创建时间:
2025-12-12
原始信息汇总
SHELF 数据集概述
基本描述
- 数据集名称:SHELF: Synthetic Harness for Evaluating LLM Fitness
- 简介:一个用于评估语言模型在书目分类、检索和聚类任务上适应性的合成基准数据集,使用美国国会图书馆分类法。
- 主页:https://github.com/mjbommar/shelf
- 代码库:https://github.com/mjbommar/shelf
- 论文:待发表(目前请引用代码库)
- 许可证:CC BY 4.0
- 版本:0.2.0
- 语言:英语
数据集内容
- 总数据量:40,100 个合成文档
- 标注体系:基于美国国会图书馆分类法
- LCC(国会图书馆分类法):21 个主题类别(A-Z)
- LCGFT(国会图书馆体裁/形式术语):14 个类别,133 种具体形式
- 主题:112 个主题词(多标签)
- 地理:44 个地点,映射到 8 个区域(多标签)
- 受众:25 种目标受众类型
- 语域:8 种写作风格(学术、专业、随意等)
数据集结构
数据字段
| 字段名 | 数据类型 | 描述 |
|---|---|---|
id |
string | 唯一文档标识符 |
title |
string | 文档标题 |
body |
string | 完整文档正文 |
word_count |
int32 | 正文单词数 |
lcc_code |
string | 国会图书馆分类代码(A-Z) |
lcc_name |
string | 人类可读的 LCC 类名 |
lcc_uri |
string | LOC 规范 URI |
lcgft_category |
string | LCGFT 广义类别(14 个选项) |
lcgft_form |
string | LCGFT 具体形式(133 个选项) |
topics |
sequence[string] | 主题词(多标签) |
geographic |
sequence[string] | 提及的地理位置 |
audience |
string | 目标受众(可为空) |
register |
string | 写作风格/语域 |
register_description |
string | 语域描述 |
target_length |
string | 目标长度类别 |
target_word_range |
sequence[int32] | 目标单词数范围 [最小值, 最大值] |
temperature |
float32 | (生成参数) |
top_p |
float32 | (生成参数) |
model |
string | (生成模型) |
git_commit |
string | (代码版本) |
code_version |
string | (代码版本) |
数据划分
| 划分 | 文档数量 | 百分比 |
|---|---|---|
| 训练集 | 24,060 | 60.0% |
| 验证集 | 8,020 | 20.0% |
| 测试集 | 8,020 | 20.0% |
划分按 LCC 代码和 LCGFT 类别进行分层,以确保标签分布平衡。
配置
数据集提供多种配置:
| 配置名称 | 描述 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|
default |
包含所有元数据的独立文档 | 12,000 | 4,000 | 4,000 |
same_lcc_pairs |
按 LCC 是否匹配标注的文档对 | 20,000 | 4,000 | 4,000 |
same_form_pairs |
按 LCGFT 形式是否匹配标注的文档对 | 20,000 | 4,000 | 4,000 |
same_audience_pairs |
按受众是否匹配标注的文档对 | 20,000 | 4,000 | 4,000 |
same_register_pairs |
按语域/风格是否匹配标注的文档对 | 20,000 | 4,000 | 4,000 |
same_topic_pairs |
二元标注:文档是否共享任何主题? | 20,000 | 4,000 | 4,000 |
topic_overlap_pairs |
分级标注:共享多少个主题?(0/1/2/3+) | 20,000 | 4,000 | 4,000 |
支持的任务与评估
| 任务 | 类型 | 类别数 | 主要评估指标 |
|---|---|---|---|
| LCC 分类 | 单标签 | 21 | 宏平均 F1 |
| LCGFT 形式分类 | 单标签 | 133 | 宏平均 F1 |
| 主题分类 | 多标签 | 112 | 微平均 F1 |
| 受众分类 | 单标签 | 25 | 宏平均 F1 |
| 语域分类 | 单标签 | 8 | 宏平均 F1 |
| 主题检索 | 检索 | - | NDCG@10 |
| 文档聚类 | 聚类 | 21/14/8 | V-measure |
创建信息
- 数据来源:使用 GPT-5.1 和 GPT-5.2 通过精心设计的提示词合成生成。
- 生成过程保证:
- 所有 LCC 代码的平衡分布
- 覆盖所有 133 种 LCGFT 形式
- 多样化的主题、受众和语域
- 不同的文档长度(12 到 6000+ 单词)
- 质量过滤:应用了空文档移除、非英语内容检测和移除、长度验证等过滤。
- 标注:所有标注均通过结构化提示词与文档一同生成,代表生成提示词中指定的预期分类。
使用考虑
社会影响
该数据集旨在用于研究和开发文档分类系统,可能有助于改进:
- 图书馆编目自动化
- 文档组织系统
- 研究论文分类
- 内容推荐系统
局限性
- 合成数据:文档为 AI 生成,可能无法完美反映真实世界的文档分布。
- 仅限英语:目前仅限于英语文档。
- 双生成模型:文档由 GPT-5.1 和 GPT-5.2 生成,可能引入模型特定的偏见。
- 引用伪影:部分文档可能包含虚构的引用,不应视为真实参考文献。
偏见考量
- 主题分布反映了国会图书馆分类的优先级。
- 地理覆盖可能偏向某些地区。
- 语域分布可能与真实世界文档频率不匹配。
引用
bibtex @misc{shelf2025, title = {SHELF: Synthetic Harness for Evaluating LLM Fitness}, author = {Bommarito, Michael J.}, year = {2025}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/mjbommar/SHELF}, note = {Version 0.2.0. Paper forthcoming.} }
其他信息
- 数据集维护者:Michael J. Bommarito II
- 许可信息:本数据集根据知识共享署名 4.0 国际(CC BY 4.0)许可证发布。
- 版本历史:
- v0.2.0 (2025-12-13):用于基准测试的预发布版本,包含 40,100 个文档。
- 联系方式:如有问题,请在 GitHub 代码库(https://github.com/mjbommar/shelf)提交 Issue。
搜集汇总
数据集介绍

构建方式
在图书馆学与信息科学领域,SHELF数据集通过合成方法构建,旨在评估语言模型在书目分类任务中的适用性。该数据集利用GPT-5.1与GPT-5.2模型生成四万余份英文文档,每份文档均依据美国国会图书馆分类体系进行标注,涵盖LCC主题分类、LCGFT体裁形式、主题词、地理信息、受众群体及文本语域等多个维度。生成过程采用精心设计的提示词,确保各类别分布均衡,文档长度从十二词至六千余词不等,并经过空文档检测、非英语内容过滤及长度验证等质量控制步骤,从而形成结构化的合成语料库。
使用方法
使用SHELF数据集时,研究者可通过Hugging Face的datasets库便捷加载。数据集提供默认配置的独立文档,以及六种配对配置,适用于文档分类、检索、聚类及配对分类等多种任务。例如,加载默认配置可获得完整的文档及其元数据,用于训练分类模型;加载same_lcc_pairs等配对配置则可用于训练文档相似性判断模型。数据集中每个实例包含标题、正文、分类代码及各类标签,用户可结合传统机器学习方法或深度学习模型,如基于BERT的序列分类,进行任务特定的建模与评估。
背景与挑战
背景概述
在数字图书馆与信息科学领域,高效精准的文献分类与检索是核心研究问题。SHELF数据集由Michael J. Bommarito于2025年创建,作为一个合成基准,旨在评估大语言模型在书目分类、检索与聚类任务上的适用性。该数据集依托美国国会图书馆分类法体系,涵盖LCC主题分类、LCGFT体裁形式、主题标目等多维度标注,为自动化编目与知识组织系统的研发提供了结构化测试平台。其出现响应了文献计量学与自然语言处理交叉领域对标准化、可扩展评估资源的迫切需求,推动了文档智能模型在图书馆学场景中的性能度量与比较研究。
当前挑战
SHELF数据集致力于解决文献分类与检索任务中的模型评估挑战,其核心难题在于如何构建一个既覆盖广泛书目分类体系,又保持语义一致性与任务多样性的基准。具体挑战包括:在领域问题层面,模型需同时处理单标签与多标签分类、文档对相似性判断及跨模态检索,要求算法具备细粒度语义理解与层次化推理能力;在构建过程中,合成数据的生成需平衡真实性、多样性与标注准确性,确保生成文本在体裁、受众与语域上的分布合理,并避免大语言模型本身固有的偏见与风格同质化影响评估效度。
常用场景
经典使用场景
在图书馆学与信息科学领域,SHELF数据集为评估语言模型在文献分类与检索任务上的适应性提供了标准化测试平台。该数据集通过合成文档模拟真实图书馆馆藏,涵盖美国国会图书馆分类法(LCC)、体裁/形式术语(LCGFT)及主题标目等多层次标注,常用于训练和评估模型在单标签分类、多标签分类及文档相似性匹配等核心任务上的性能。研究人员可借助其结构化标注体系,系统性地探究模型对学术文献主题、体裁、受众及写作风格的识别能力,为自动化编目系统的开发奠定基础。
解决学术问题
SHELF数据集主要针对自然语言处理中文献自动分类与知识组织体系的适配性问题。传统方法在处理多层级、细粒度的图书馆分类体系时,常面临标注数据稀缺、类别不平衡等挑战。该数据集通过大规模合成数据,提供了均衡覆盖21个LCC大类、133种LCGFT形式及112个主题的标注样本,使得研究者能够系统评估模型在复杂分类体系下的泛化能力与鲁棒性。其意义在于推动了文献信息学与人工智能的交叉研究,为构建更精准、可扩展的智能知识管理系统提供了数据支撑。
实际应用
在实际应用层面,SHELF数据集可服务于图书馆与数字档案馆的自动化编目流程,通过训练分类模型快速为新增文献分配主题代码与体裁标签。其检索与聚类任务配置也能助力学术搜索引擎优化相似文献推荐,提升知识发现的效率。此外,该数据集对文档写作风格与目标受众的标注,为教育科技领域个性化学习资源的智能筛选与适配提供了可能性,例如根据读者水平自动匹配相应难度的学术材料。
数据集最近研究
最新研究方向
在数字图书馆与信息科学领域,SHELF数据集作为基于国会图书馆分类体系的大规模合成基准,正推动大语言模型在文献分类与检索任务中的适应性评估研究。前沿探索聚焦于利用其多层次标注结构,如LCC主题代码、LCGFT体裁形式及多标签主题,开发细粒度文档理解模型。该数据集通过精心设计的配对配置,促进了跨文档语义关系分析,成为评估模型在复杂元数据环境下泛化能力的关键工具。其合成数据生成范式亦引发了对模型偏差检测与领域适应性的新讨论,为自动化编目系统与智能知识组织研究提供了标准化测试平台。
以上内容由遇见数据集搜集并总结生成



