contract-retrieval

Hugging Face2026-01-23 更新2026-01-24 收录

下载链接：

https://huggingface.co/datasets/newmindai/contract-retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个土耳其法律问答检索数据集，采用MTEB（大规模文本嵌入基准）格式构建，包含三个核心组件：查询（法律问题）、语料库（法律文档片段，包括收入分成协议、能源销售协议和银行账户质押协议）以及默认的查询-语料库映射矩阵（qrels）。数据集统计显示，共有272条查询、272条语料库记录和272条默认记录。数据分布显示，查询按文档类型分为收入分成协议（57.7%）、能源销售协议（23.2%）和银行账户质押协议（19.1%）。数据集通过多层AI架构生成，包括生成层（使用OpenAI GPT-4o-mini和Google Gemini 2.0 Flash）、批评层（使用OpenAI GPT-4o）和融合层（使用Google Gemini 2.5 Pro），以确保生成高质量和多样化的问题。数据集适用于土耳其法律文档检索系统、问答系统、嵌入模型评估、RAG应用和MTEB基准测试。

创建时间：

2026-01-16

原始信息汇总

土耳其法律问答检索数据集

数据集概述

这是一个土耳其语法律问答检索数据集，采用MTEB格式构建。数据集包含三个核心组成部分：查询（法律问题）、语料库（法律文档片段）以及默认的查询-语料库映射矩阵。

基本信息

语言：土耳其语
许可证：Apache 2.0
任务类别：文本检索
标签：mteb, retrieval, legal, turkish
数据规模：1K<n<10K

数据集构成与统计

配置详情

语料库配置
- 特征：_id (字符串), text (字符串), title (字符串), docName (字符串)
- 训练集：272个样本，144,595字节
- 下载大小：66,667字节
- 数据集大小：144,595字节
默认配置
- 特征：query-id (字符串), corpus-id (字符串), score (int64)
- 训练集：272个样本，17,408字节
- 下载大小：5,945字节
- 数据集大小：17,408字节
查询配置
- 特征：_id (字符串), text (字符串), title (字符串)
- 训练集：272个样本，26,951字节
- 下载大小：14,257字节
- 数据集大小：26,951字节

数据分布

查询总数：272
语料库文档总数：272
映射关系总数：272

查询按文档类型分布

文档类型	查询数量	百分比
收入分享协议	157	57.7%
能源销售协议	63	23.2%
银行账户质押协议	52	19.1%

数据生成与处理

生成架构

采用多层AI架构生成：

生成层：使用OpenAI GPT-4o-mini和Google Gemini 2.0 Flash生成多样化问题。
评判层：使用OpenAI GPT-4o进行质量控制和评估。
融合层：使用Google Gemini 2.5 Pro进行结果合并与最终确定。

分词器基准与数据过滤

使用七种分词器进行基准测试以测量标记长度并识别异常长序列。以MPNetTokenizerFast为参考分词器，移除了超过数据集特定平均值约7000个标记的样本。

分词器基准统计

分词器	词汇表大小	总标记数	平均标记数	最小标记数	最大标记数	中位数标记数
MPNetTokenizerFast	30,527	3,101,871	2238.002165	424	6986	1479.5
Qwen2TokenizerFast	151,669	2,646,580	1909.509380	408	5972	1304.5
GemmaTokenizerFast	262,145	2,258,694	1629.649351	364	5090	1127
XLMRobertaTokenizerFast	250,002	1,757,806	1268.258297	262	4045	865.5
BertTokenizerFast	32,000	1,477,491	1066.010823	227	3407	737
T5TokenizerFast	32,100	1,420,608	1024.969697	216	3270	706.5
PretrainedTokenizerFast	32,000	1,409,232	1016.761905	212	3218	698

数据集过滤情况

数据集	最大标记数	平均标记数	删除样本数	总样本数
`newmindai/court-of-cassation-caselaw`	30,527	186.4827586	11	272

可视化

Tokenizer / Total Token：https://huggingface.co/datasets/newmindai/contract-retrieval/resolve/main/2025-11-25-15.32.24.png
Corr of Vocab Size – Total Token：https://huggingface.co/datasets/newmindai/contract-retrieval/resolve/main/2025-11-25-15.32.41.png

使用场景

土耳其语法律文档检索系统
问答系统
嵌入模型评估
检索增强生成应用
MTEB基准测试

引用信息

bibtex @article{mecellem2026, title={Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain}, author={Uğur, Özgür and Göksu, Mahmut and Çimen, Mahmut and Yılmaz, Musa and Şavirdi, Esra and Demir, Alp Talha and Güllüce, Rumeysa and Çetin, İclal and Sağbaş, Ömer Can}, journal={arXiv preprint arXiv:2601.16018}, year={2026}, month={January}, url={https://arxiv.org/abs/2601.16018}, doi={10.48550/arXiv.2601.16018}, eprint={2601.16018}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献者

该数据集由NewMind AI开发。

联系方式

如有问题请联系：info@newmind.ai

搜集汇总

数据集介绍

构建方式

在土耳其法律信息检索领域，该数据集采用多层次人工智能架构精心构建。生成层融合了OpenAI GPT-4o-mini与Google Gemini 2.0 Flash模型，分别负责高效与多样化的法律问题生成。随后，批评层通过OpenAI GPT-4o对生成问题进行质量评估与控制。最终，融合层借助Google Gemini 2.5 Pro整合并优化输出结果。数据预处理阶段，研究团队以MPNetTokenizerFast为基准，对语料进行了严格的序列长度分析，移除了显著偏离平均长度的异常样本，确保了数据分布的均衡性与输入质量。

特点

本数据集专为土耳其法律文本检索设计，其核心特征体现在结构化与专业性上。数据严格遵循MTEB基准格式，清晰划分为查询、语料库及关联矩阵三个独立组件。语料内容聚焦于三类关键法律合同，即收益分享协议、能源销售协议与银行账户质押协议，覆盖了商业法律实践的核心范畴。数据规模适中，包含272条平行样本，在合同类型间呈现自然分布，为模型训练提供了兼具代表性与复杂度的测试环境。可视化分析进一步揭示了文本的词汇复杂度与长度模式，为深入理解数据特性提供了依据。

使用方法

该数据集主要服务于土耳其法律文档检索系统的开发与评估。使用者可依据MTEB标准流程，将查询集与文档语料库输入检索模型，并通过预定义的关联矩阵验证检索结果的准确性。它适用于训练和评估各类嵌入模型，特别是在构建针对土耳其语的法律问答系统或检索增强生成应用时，能提供高质量的基准测试数据。研究人员亦可利用其进行跨语言法律信息检索的对比研究，或将其纳入更广泛的文本嵌入基准测试套件中，以衡量模型在专业领域的性能。

背景与挑战

背景概述

在自然语言处理与法律信息检索的交叉领域，针对特定语言的专用数据集对于推动领域发展至关重要。Contract-Retrieval数据集由NewMind AI团队于2026年创建，作为土耳其语法律问答检索的基准资源，旨在解决法律文档智能检索的核心研究问题。该数据集严格遵循大规模文本嵌入基准格式，涵盖了收入分享协议、能源销售协议及银行账户质押协议三类法律文书，共计272条查询与对应语料。其构建依托于多层级人工智能架构，融合了GPT-4o-mini、Gemini 2.0 Flash等先进模型进行生成与质量控制，为土耳其语法律领域的检索增强生成与嵌入模型评估提供了重要基础。

当前挑战

该数据集致力于应对土耳其语法律文档检索的固有挑战，其核心在于从复杂的合同文本中精准定位与自然语言查询相匹配的片段，这要求模型深刻理解法律术语的细微差别与长程上下文依赖。在构建过程中，团队面临数据质量与多样性的平衡难题，需通过多模型协同生成并经过严格批评层筛选以确保问题的真实性与覆盖面。此外，预处理阶段涉及对多种分词器的基准测试，以识别并过滤异常长序列样本，例如使用MPNet分词器作为参考移除超出平均约7000个标记的离群值，这一过程对维持数据分布的均衡性与模型训练的稳定性提出了技术要求。

常用场景

经典使用场景

在土耳其语法律信息检索领域，该数据集为评估和优化文本检索模型提供了标准化的基准。其经典使用场景集中于法律文档的精准检索，通过模拟真实的法律咨询过程，将用户提出的法律问题与合同文档中的相关段落进行匹配。这种检索任务不仅考验模型对土耳其语法律术语的理解能力，还要求模型能够处理复杂的法律条文结构和语义关联，从而为构建高效的法律智能系统奠定数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列重要的研究工作，其中最突出的是‘Mecellem Models’项目。该项目利用此数据集及其他法律语料，训练了专门针对土耳其法律领域的预训练语言模型与嵌入模型。这些模型不仅在MTEB等通用基准上表现优异，更在法律特定的检索与问答任务中设立了新的性能标准，为后续针对土耳其乃至其他低资源语言的法律人工智能研究提供了可复现的模型架构与训练范式。

数据集最近研究