EnglishFinance3Retrieval-sample
收藏Hugging Face2025-09-16 更新2025-09-17 收录
下载链接:
https://huggingface.co/datasets/mteb-private/EnglishFinance3Retrieval-sample
下载链接
链接失效反馈官方服务:
资源简介:
这是一个个人财务领域的问答检索评估示例数据集,包含6个描述信息需求的查询、10个相应的文档和6个将查询与文档相关联的相关性判断。
创建时间:
2025-09-12
原始信息汇总
EnglishFinance3Retrieval-sample 数据集概述
基本信息
- 语言:英语
- 许可协议:cc-by-sa-4.0
- 多语言性:单语
- 任务类别:文本检索
- 任务ID:文档检索
- 标签:mteb、text、retrieval、sample
数据集结构
数据集遵循标准MTEB检索格式,包含三个配置文件:
配置文件:corpus
- 特征:
_id:字符串类型title:字符串类型text:字符串类型
- 数据分割:
- train:10个样本
配置文件:default
- 特征:
query-id:字符串类型corpus-id:字符串类型score:int64类型
- 数据分割:
- test:6个样本
配置文件:queries
- 特征:
_id:字符串类型text:字符串类型
- 数据分割:
- train:6个样本
数据文件
corpus/train-*:包含10个文档,字段包括_id、title、textqueries/train-*:包含6个查询,字段包括_id、textdata/test-*:包含6个相关性判断,字段包括query-id、corpus-id、score
领域
金融、法律
用途
用于个人金融问答检索评估的样本数据集,可通过MTEB框架对嵌入模型进行评估。
搜集汇总
数据集介绍

构建方式
在金融与法律交叉领域的信息检索研究中,EnglishFinance3Retrieval-sample数据集通过派生方式构建,其原始数据来源于专业金融文档与用户查询的对应关系。该数据集严格遵循MTEB检索评估框架的标准格式,将语料库、查询集及相关性标注分别组织为结构化文件,其中语料库包含10篇带有标题与正文的文档,查询集涵盖6项用户信息需求,相关性判断则通过6组三元组精确映射查询与文档的匹配程度。
特点
该数据集以单语英语形式呈现,专注于金融法律领域的高精度文本检索任务,其核心特点在于高度结构化的多配置设计:corpus配置提供带标识符的文档元数据,queries配置存储查询文本及其唯一标识,default配置则通过人工标注的分数字段明确量化查询与文档的相关性。作为MTEB基准的组成部分,该样本集虽规模精简,却完整保留了真实场景中的语义逻辑与评估需求,为检索模型的快速验证提供了轻量化但功能完备的实验环境。
使用方法
研究者可通过MTEB评估框架直接加载该数据集进行检索任务验证,使用mteb.get_task方法指定数据集名称即可获取预定义任务实例。通过初始化MTEB评估器并传入自定义的嵌入模型,系统将自动执行语料索引构建、查询编码及相似度计算流程,最终输出标准化评估指标。需注意访问该封闭数据集需提供有效的HuggingFace认证令牌,且评估结果将严格遵循CC-BY-SA-4.0协议规定的使用规范。
背景与挑战
背景概述
EnglishFinance3Retrieval-sample数据集作为金融领域信息检索研究的专项评估工具,由MTEB基准测试框架支持开发,专注于个人理财问答检索任务。该数据集由专业研究团队构建,采用CC-BY-SA-4.0开放许可协议,其核心研究目标在于解决金融文档与用户查询间的精准匹配问题,通过结构化语料库和查询对促进检索模型在金融垂直领域的性能优化,对推动金融科技领域的自然语言处理技术发展具有显著意义。
当前挑战
该数据集主要应对金融领域专业术语密集、语义复杂度高的文档检索挑战,要求模型准确理解用户理财需求与金融文档间的深层关联。构建过程中面临标注一致性保障的难题,需要专家知识确保查询-文档相关性判定的准确性,同时需在有限样本规模下维持数据代表性和多样性,这些因素共同构成了数据集开发与应用的核心难点。
常用场景
经典使用场景
在金融信息检索领域,EnglishFinance3Retrieval-sample数据集为评估检索模型性能提供了标准化测试环境。该数据集通过精心设计的查询-文档对,模拟真实金融咨询场景,使研究人员能够系统评估模型在专业术语理解、语义匹配和相关性排序方面的表现。其结构化设计特别适合检验模型在有限样本下的泛化能力。
解决学术问题
该数据集有效解决了金融领域信息检索中的专业术语理解难题,为评估检索模型在垂直领域的适应性提供了基准。通过构建高质量的查询-文档相关性标注,它助力研究者突破通用检索模型在专业领域性能瓶颈,推动领域自适应检索技术的发展,对提升金融知识服务智能化水平具有重要理论价值。
衍生相关工作
该样本数据集催生了多项创新研究,包括基于对比学习的金融文档嵌入方法、领域自适应的查询扩展技术以及轻量级检索模型优化方案。相关成果已应用于MTEB评估框架的改进,并启发了金融-法律跨领域检索模型的联合训练范式,为专业领域检索技术发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



