five

Educational Resource Search Relevance Dataset

收藏
arXiv2025-04-17 更新2025-04-20 收录
下载链接:
https://tinyurl.com/er-rel-data
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建的教育资源搜索相关性数据集,由德国汉诺威莱布尼茨大学L3S研究中心和汉诺威莱布尼茨信息技术中心共同完成。数据集收集了12名参与者在执行19个课程规划相关任务时的401个明确的相关性判断,这些判断基于他们与搜索任务相关的文档互动的思考过程。数据集中的文档涵盖了从网络页面到PDF文档,经过预处理后用于大规模语言模型的相关性评估。该数据集旨在解决教育资源搜索中自动评估相关性的问题,并为大规模语言模型在特定领域搜索中的评估提供了实用的框架。

The educational resource search relevance dataset constructed in this study was jointly developed by the L3S Research Center and the Leibniz Institute of Information Technology Hannover at Leibniz University Hannover, Germany. The dataset contains 401 explicit relevance judgments collected from 12 participants while they completed 19 course planning-related tasks, with these judgments derived from their think-aloud protocols during interactions with documents relevant to the search tasks. The documents in the dataset range from web pages to PDF documents, and have been preprocessed for relevance evaluation with large language models. This dataset aims to address the challenge of automatic relevance assessment in educational resource search, and provides a practical framework for evaluating large language models in domain-specific search scenarios.
提供机构:
德国汉诺威莱布尼茨大学L3S研究中心, 德国汉诺威莱布尼茨信息技术中心
创建时间:
2025-04-17
搜集汇总
数据集介绍
main_image_url
构建方式
在教育资源搜索领域,评估搜索结果的相关性通常需要专业教师的参与,这一过程既耗时又成本高昂。为了探索利用大型语言模型(LLMs)自动评估教育资源相关性的可行性,本研究通过用户实验收集了401条人工相关性标注数据。研究邀请了12名具有不同教学背景的参与者(包括职前教师、在职教师和教育研究者),在模拟课程规划任务中进行搜索并实时记录其思考过程。通过转录和编码这些语音记录,结合浏览日志的时间戳匹配,构建了包含19个主题、353份文档的标注数据集,每份文档均按照TREC标准进行了0-2级的相关性评分。
特点
该数据集的核心价值在于其专业性和多维度特性。作为首个针对教育资源搜索场景构建的LLM评估基准,它不仅包含标准的三级相关性标注,还深度整合了教育领域的专业评估维度。数据集特别捕捉了教师在实际搜索中关注的12个关键维度(如年级适配性、教学法匹配度、学生参与度等),这些维度源自教育文献和参与者自身提出的评估标准。值得注意的是,数据集中约50.8%的文档长度超过5000字符,1.2%超过50000字符,这种真实场景下的文档长度分布为研究LLMs处理长文本能力提供了理想测试环境。
使用方法
该数据集主要服务于三个研究场景:首先,可作为基准测试用于评估不同LLMs在教育资源相关性判断任务中的性能,研究者可通过计算Cohen's κ系数比较模型输出与人工标注的一致性。其次,数据集支持系统级评估,利用平均精度(MAP)、P@10等标准信息检索指标,验证检索系统在专业领域的表现。最重要的是,其多维度的标注体系支持提示工程研究,开发者可基于提供的12维评估框架(或简化的5维版本)设计分层提示策略,探索如何最优整合领域知识到LLM评估流程中。使用时建议优先采用文档的SKIM表示(从长文档中抽取10个1000字符片段),该方式在实验中显示出比首段截取更好的评估效果。
背景与挑战
背景概述
Educational Resource Search Relevance Dataset由德国汉诺威莱布尼茨大学L3S研究中心的Ratan J. Sebastian和TIB - 莱布尼茨科学与技术信息中心的Anett Hoppe于2025年创建,旨在探索大型语言模型(LLMs)在教育资源搜索相关性评估中的应用。该数据集包含401条由教学专业人士在课程规划搜索任务中生成的人类相关性判断,用于验证LLMs在特定领域搜索评估中的有效性。研究通过比较三种不同的提示结构(简单双维度基线、12维教育文献衍生框架和参与者直接提供的标准),发现基于领域特定框架的LLMs能够与人类判断达成较高一致性(Cohen’s 𝜀?最高达0.650),显著优于基线方法。这一成果为信息检索领域的自动化评估提供了新的方法论支持,并推动了教育领域专业搜索工具的发展。
当前挑战
该数据集面临的核心挑战包括:1) 领域问题的复杂性:教育资源相关性评估需兼顾内容匹配、年级适配性、教学适用性等多维标准,传统通用评估框架难以捕捉其专业特性;2) 数据构建的技术难题:需平衡文档内容输入的完整性(如5000字符首印象与50,000字符全面浏览的取舍)与LLMs上下文窗口限制;3) 评估框架的优化:如何在12维文献框架与10维用户衍生框架间选择最优维度组合以最大化评估效能;4) 模型表现的差异性:开源与专有LLMs在专业判断任务上存在显著性能差距(最佳𝜀? 0.374 vs 0.650),需针对性优化。这些挑战凸显了领域知识嵌入与模型适配在专业搜索评估中的关键作用。
常用场景
经典使用场景
在教育资源检索领域,Educational Resource Search Relevance Dataset为研究者提供了一个标准化的评估框架,用于验证大型语言模型(LLMs)在生成教育资源相关性标签时的有效性。该数据集通过收集教师在实际教学准备中的搜索任务和相关性判断,为教育信息检索系统的开发和优化提供了真实场景下的基准测试。
衍生相关工作
该数据集衍生了多项经典研究,包括基于领域特定标准的LLMs提示工程优化、教育资源多维度评估框架的构建,以及开源与专有LLMs在专业搜索任务中的性能对比。相关工作进一步推动了教育信息检索领域向自动化、细粒度评估方向发展。
数据集最近研究
最新研究方向
在教育资源搜索领域,基于大语言模型(LLMs)的自动相关性评估正成为前沿研究方向。最新研究聚焦于如何通过领域特定的提示框架提升LLMs在教育资源评估中的表现,特别是探索教师参与构建的多维度评估标准(如课程适配度、内容质量等)对模型性能的影响。研究发现,结合教育领域专业知识的提示框架(如12维评估体系)可使LLMs与人类评估者的一致性显著提升(Cohen's κ达0.650),较传统通用评估标准提高147%。该方向与当前教育数字化转型趋势深度契合,为解决教育资源评价成本高、专业性强的痛点提供了新思路,同时也揭示了开源模型在专业领域评估任务上的性能差距,为后续研究指明了优化路径。
相关研究论文
  • 1
    Validating LLM-Generated Relevance Labels for Educational Resource Search德国汉诺威莱布尼茨大学L3S研究中心, 德国汉诺威莱布尼茨信息技术中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作