five

EnglishFinance1Retrieval-sample

收藏
Hugging Face2025-09-16 更新2025-09-17 收录
下载链接:
https://huggingface.co/datasets/mteb-private/EnglishFinance1Retrieval-sample
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于金融文档检索评估的样本数据集。它包含6个描述信息需求的查询、10个相应的文档以及6个将查询与文档相关联的相关性判断。
创建时间:
2025-09-12
原始信息汇总

EnglishFinance1Retrieval-sample 数据集概述

基本描述

  • 数据集名称:EnglishFinance1Retrieval-sample
  • 用途:金融文档检索评估的样本数据集
  • 语言:英语
  • 多语言性:单语
  • 许可证:other

任务类别

  • 任务类别:文本检索
  • 任务ID:文档检索

领域

  • 金融
  • 法律

数据集结构

数据集遵循标准MTEB检索格式,包含三个配置文件:

配置文件:corpus

  • 特征字段:
    • _id:字符串类型
    • title:字符串类型
    • text:字符串类型
  • 数据分割:
    • train:10个样本

配置文件:default

  • 特征字段:
    • query-id:字符串类型
    • corpus-id:字符串类型
    • score:int64类型
  • 数据分割:
    • test:6个样本

配置文件:queries

  • 特征字段:
    • _id:字符串类型
    • text:字符串类型
  • 数据分割:
    • train:6个样本

数据文件

  • corpus/corpus-00000-of-00001.parquet:包含10个文档,字段为_idtitletext
  • queries/queries-00000-of-00001.parquet:包含6个查询,字段为_idtext
  • data/test-00000-of-00001.parquet:包含6个相关性判断,字段为query-idcorpus-idscore

样本内容

  • 查询数量:6个描述信息需求的查询
  • 文档数量:10个对应文档
  • 相关性判断数量:6个连接查询与文档的相关性判断

使用说明

可通过MTEB库加载该数据集进行评估: python import mteb task = mteb.get_task("EnglishFinance1Retrieval") evaluator = mteb.MTEB(tasks=[task]) model = mteb.get_model("your-model-name") results = evaluator.run(model) # 需要hf_token运行,因为是封闭数据集

注释信息

  • 注释创建者:derived
  • 标签:mteb、text、retrieval、sample
搜集汇总
数据集介绍
main_image_url
构建方式
在金融与法律交叉领域,EnglishFinance1Retrieval-sample数据集通过派生方式构建,严格遵循MTEB检索评估标准格式。其语料库包含10篇文档,每篇均具备唯一标识符、标题及正文文本;查询集涵盖6项信息需求,每项均以文本形式表述;相关性标注则通过6条评判记录,精确链接查询与文档,并附有相关性分数。
特点
该数据集以英语单语形式呈现,专注于文本检索任务中的文档检索子类,具备高度结构化特征。其核心特点在于规模精简而结构完整,既保留了原始数据的语义完整性,又通过适度修改适应演示需求。数据集采用分块存储的Parquet格式,确保了数据的高效读取与处理,同时严格遵循领域专业性要求。
使用方法
使用者可通过MTEB评估框架加载该数据集,调用标准接口获取检索任务实例。评估过程中,需指定待测试的嵌入模型名称,执行run方法即可自动完成检索性能评测。需要注意的是,由于数据集权限限制,运行评估时需提供有效的HuggingFace认证令牌以访问封闭数据内容。
背景与挑战
背景概述
金融文档检索作为信息检索领域的重要分支,随着金融科技的发展而日益受到关注。EnglishFinance1Retrieval-sample数据集由专业研究机构基于MTEB评估框架构建,专注于金融与法律交叉领域的文本检索任务。该数据集通过精心设计的查询-文档对结构,为评估嵌入模型在专业领域的检索性能提供了标准化基准,对推动金融信息智能化处理具有重要意义。
当前挑战
金融文档检索面临专业术语密集、语义理解复杂的核心挑战,要求模型准确捕捉金融文本的细微差别。数据集构建过程中需克服领域专业知识标注的高门槛,确保查询-文档相关性判定的准确性。同时,保持数据结构的标准化与评估结果的可比性,也是构建过程中需要解决的技术难题。
常用场景
经典使用场景
在金融信息检索领域,EnglishFinance1Retrieval-sample数据集作为标准评估基准,主要用于测试嵌入模型在金融文档匹配任务中的性能表现。研究人员通过构建查询-文档对,评估模型在复杂金融术语和语义关联方面的检索精度,为金融科技领域的自然语言处理研究提供关键数据支撑。
实际应用
实际应用中,该数据集为金融机构的智能投研系统、合规文档检索和风险控制平台提供核心测试框架。通过模拟真实业务场景中的信息需求,帮助开发团队优化检索系统的准确性与响应效率,最终提升金融从业者在海量文档中获取关键信息的工作效能。
衍生相关工作
基于该数据集衍生的经典研究包括基于深度学习的跨模态金融检索系统、结合知识图谱的增强型检索框架,以及针对金融术语特殊性的语义匹配算法优化。这些工作显著推动了金融自然语言处理技术的发展,并为后续大规模金融检索数据集的构建提供了重要参考范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作