Educational Resource Search Relevance Dataset

Name: Educational Resource Search Relevance Dataset
Creator: 德国汉诺威莱布尼茨大学L3S研究中心, 德国汉诺威莱布尼茨信息技术中心
Published: 2025-04-17 16:14:45
License: 暂无描述

arXiv2025-04-17 更新2025-04-20 收录

下载链接：

https://tinyurl.com/er-rel-data

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建的教育资源搜索相关性数据集，由德国汉诺威莱布尼茨大学L3S研究中心和汉诺威莱布尼茨信息技术中心共同完成。数据集收集了12名参与者在执行19个课程规划相关任务时的401个明确的相关性判断，这些判断基于他们与搜索任务相关的文档互动的思考过程。数据集中的文档涵盖了从网络页面到PDF文档，经过预处理后用于大规模语言模型的相关性评估。该数据集旨在解决教育资源搜索中自动评估相关性的问题，并为大规模语言模型在特定领域搜索中的评估提供了实用的框架。

提供机构：

德国汉诺威莱布尼茨大学L3S研究中心, 德国汉诺威莱布尼茨信息技术中心

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

在教育资源搜索领域，评估搜索结果的相关性通常需要专业教师的参与，这一过程既耗时又成本高昂。为了探索利用大型语言模型（LLMs）自动评估教育资源相关性的可行性，本研究通过用户实验收集了401条人工相关性标注数据。研究邀请了12名具有不同教学背景的参与者（包括职前教师、在职教师和教育研究者），在模拟课程规划任务中进行搜索并实时记录其思考过程。通过转录和编码这些语音记录，结合浏览日志的时间戳匹配，构建了包含19个主题、353份文档的标注数据集，每份文档均按照TREC标准进行了0-2级的相关性评分。

特点

该数据集的核心价值在于其专业性和多维度特性。作为首个针对教育资源搜索场景构建的LLM评估基准，它不仅包含标准的三级相关性标注，还深度整合了教育领域的专业评估维度。数据集特别捕捉了教师在实际搜索中关注的12个关键维度（如年级适配性、教学法匹配度、学生参与度等），这些维度源自教育文献和参与者自身提出的评估标准。值得注意的是，数据集中约50.8%的文档长度超过5000字符，1.2%超过50000字符，这种真实场景下的文档长度分布为研究LLMs处理长文本能力提供了理想测试环境。

使用方法

该数据集主要服务于三个研究场景：首先，可作为基准测试用于评估不同LLMs在教育资源相关性判断任务中的性能，研究者可通过计算Cohen's κ系数比较模型输出与人工标注的一致性。其次，数据集支持系统级评估，利用平均精度（MAP）、P@10等标准信息检索指标，验证检索系统在专业领域的表现。最重要的是，其多维度的标注体系支持提示工程研究，开发者可基于提供的12维评估框架（或简化的5维版本）设计分层提示策略，探索如何最优整合领域知识到LLM评估流程中。使用时建议优先采用文档的SKIM表示（从长文档中抽取10个1000字符片段），该方式在实验中显示出比首段截取更好的评估效果。

背景与挑战

背景概述

Educational Resource Search Relevance Dataset由德国汉诺威莱布尼茨大学L3S研究中心的Ratan J. Sebastian和TIB - 莱布尼茨科学与技术信息中心的Anett Hoppe于2025年创建，旨在探索大型语言模型（LLMs）在教育资源搜索相关性评估中的应用。该数据集包含401条由教学专业人士在课程规划搜索任务中生成的人类相关性判断，用于验证LLMs在特定领域搜索评估中的有效性。研究通过比较三种不同的提示结构（简单双维度基线、12维教育文献衍生框架和参与者直接提供的标准），发现基于领域特定框架的LLMs能够与人类判断达成较高一致性（Cohen’s 𝜀?最高达0.650），显著优于基线方法。这一成果为信息检索领域的自动化评估提供了新的方法论支持，并推动了教育领域专业搜索工具的发展。

当前挑战

该数据集面临的核心挑战包括：1) 领域问题的复杂性：教育资源相关性评估需兼顾内容匹配、年级适配性、教学适用性等多维标准，传统通用评估框架难以捕捉其专业特性；2) 数据构建的技术难题：需平衡文档内容输入的完整性（如5000字符首印象与50,000字符全面浏览的取舍）与LLMs上下文窗口限制；3) 评估框架的优化：如何在12维文献框架与10维用户衍生框架间选择最优维度组合以最大化评估效能；4) 模型表现的差异性：开源与专有LLMs在专业判断任务上存在显著性能差距（最佳𝜀? 0.374 vs 0.650），需针对性优化。这些挑战凸显了领域知识嵌入与模型适配在专业搜索评估中的关键作用。

常用场景

经典使用场景

在教育资源检索领域，Educational Resource Search Relevance Dataset为研究者提供了一个标准化的评估框架，用于验证大型语言模型（LLMs）在生成教育资源相关性标签时的有效性。该数据集通过收集教师在实际教学准备中的搜索任务和相关性判断，为教育信息检索系统的开发和优化提供了真实场景下的基准测试。

衍生相关工作

该数据集衍生了多项经典研究，包括基于领域特定标准的LLMs提示工程优化、教育资源多维度评估框架的构建，以及开源与专有LLMs在专业搜索任务中的性能对比。相关工作进一步推动了教育信息检索领域向自动化、细粒度评估方向发展。

数据集最近研究