five

dataset-submission

收藏
Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/submissions-anon/dataset-submission
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多配置的文本检索数据集,适用于检索和基准测试任务。数据集包含五个不同的配置领域:数学(math)、写作(writing)、推特(twitter)、WildChat(wildchat)和国会(congress)。每个配置均包含语料库(corpus)和查询(queries)两部分数据,以支持查询-文档对的检索任务。数据集规模介于10万到100万条之间,语言为英语,许可协议为CC-BY-4.0。适用于文本检索、推理和基准测试等任务场景。

This is a multi-configuration text retrieval dataset designed for retrieval and benchmark testing tasks. It encompasses five distinct domain configurations: math, writing, twitter, WildChat, and congress. Each configuration includes two core datasets: corpus and queries, which support query-document pair retrieval tasks. The dataset contains between 100,000 and 1,000,000 entries, is in English, and is released under the CC-BY-4.0 license. It is suitable for task scenarios including text retrieval, reasoning, and benchmark testing.
创建时间:
2026-05-06
原始信息汇总

数据集概述

该数据集是一个面向文本检索任务的基准数据集,主要用于检索与推理相关的评估。数据集遵循 CC-BY-4.0 许可证,语言为英文,样本数量规模在 100K 到 1M 之间。

配置与数据划分

该数据集包含 5 个配置,每个配置均包含 corpus(语料库)和 queries(查询集)两个子集:

配置名称 子集 数据文件路径
math corpus analogues/math/corpus/corpus.jsonl
queries analogues/math/queries+qrels/queries.jsonl
writing corpus analogues/writing/corpus/corpus.jsonl
queries analogues/writing/queries+qrels/queries.jsonl
twitter corpus descriptive/twitter/corpus/corpus.jsonl
queries descriptive/twitter/queries+qrels/queries.jsonl
wildchat corpus descriptive/wildchat/corpus/corpus.jsonl
queries descriptive/wildchat/queries+qrels/queries.jsonl
congress corpus tip-of-tongue/congress/corpus/corpus.jsonl
queries tip-of-tongue/congress/queries+qrels/queries.jsonl

主要特点

  • 任务类型:文本检索(text-retrieval)
  • 标签:检索(retrieval)、推理(reasoning)、基准(benchmark)
  • 配置分类:涵盖数学(math)、写作(writing)、社交媒体(twitter)、对话(wildchat)及国会记录(congress)等多样化的领域。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以多任务文本检索为核心,精心构建了多个子集以覆盖多样化的检索场景。每个子集均包含语料库与查询集两部分,其中数学与写作子集聚焦于类比推理任务,推特与WildChat子集则侧重描述性检索,国会子集则模拟了舌尖现象下的信息寻回。数据以JSONL格式组织,便于高效加载与处理。
特点
数据集特点鲜明,涵盖了从学术数学到日常社交媒体的广泛领域,兼具推理与描述性检索任务。其规模落在十万至百万级别,足以支撑稳健的基准测试。所有数据均遵循CC-BY-4.0许可,确保了开放性与可复现性,特别适用于评估检索系统在多样语境下的泛化能力。
使用方法
使用该数据集时,可通过HuggingFace Datasets库直接加载。用户需指定配置名称(如math、writing等),并分离加载语料与查询文件。查询集中包含相关性判断,可直接用于信息检索模型的训练与评估。推荐将语料库构建成索引,再通过查询集进行检索性能的测试与对比。
背景与挑战
背景概述
该数据集由多个子集构成,涵盖数学、写作、社交媒体等多领域文本检索任务,旨在评估检索系统在异质语料中的泛化能力。其创建源于对传统检索基准仅聚焦单一领域或简单匹配的反思,通过引入推理类型与描述性查询,推动检索向复杂语义理解演进。研究人员依托开源社区贡献(如WildChat对话语料)与权威来源(如国会记录),构建了规模介于10万至100万样本间的结构化基准。自发布以来,因其对多维度匹配、逻辑关联及领域迁移的针对性设计,迅速成为文本检索领域评估模型高层次认知能力的重要标尺,尤其促进了基于嵌入向量的密集检索与零样本推理技术的发展。
当前挑战
当前检索模型普遍面临三大核心挑战:其一,跨领域语义鸿沟问题——模型在处理数学逻辑推理、创意写作类比及社交媒体非正式表达时,需兼顾领域特异性与通用语义表征,传统单一预训练策略难以平衡;其二,细粒度关联建模瓶颈——如“tip-of-tongue”类查询要求绕过显式关键词匹配,捕捉隐含意图与模糊记忆线索,这对注意机制与上下文深度理解提出极高要求;其三,数据集构建中的标注一致性与噪声控制——多源语料融合需确保查询-答案对逻辑正确(如数学证明步骤的因果链),同时避免描述性子集因主观表述差异引入标签歧义,增加了基准的维护成本与评估信噪比挑战。
常用场景
经典使用场景
在信息检索与文本匹配的研究领域中,dataset-submission数据集以其涵盖数学推理、学术写作、社交媒体对话及国会记录等多维语料库的独特架构,成为评估检索模型鲁棒性的标杆性基准。研究者利用其划分清晰的'语料库-查询-相关性判定'三元组结构,系统性地测试模型在跨领域语义匹配、稀疏查询扩展及长尾相关性建模等经典任务上的表现,尤其为对比学习与双编码器架构的泛化能力提供了严苛的测试场景。
实际应用
在实际场景中,该数据集为专业文档检索系统、社交媒体内容过滤工具及知识库问答平台提供着关键性验证支持。基于其模拟的真实检索困境,开发人员可优化电商平台的多模态商品搜索、学术界跨学科论文引用推荐、以及政务系统法规条文精准定位等应用,显著提升长尾查询的响应质量。其包含的低资源语料配置尤其有助于为对话式AI构建容错性更强的上下文召回模块,减少开放域场景下信息幻觉问题。
衍生相关工作
该数据集催生了多项具有深远影响的学术突破,包括面向跨域检索的任务自适应负采样策略、基于提示工程的语义去噪编码方法,以及融合知识图谱的稀疏查询扩展框架。其中,针对其配置中'语感模糊查询'子集设计的对比增强变形器架构,已成为处理口语化检索难点的基线模型;而围绕其'国会记录'子集开展的术语消歧研究,则直接引出了法律文书领域专用的段落级检索范式革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作