five

contract-retrieval

收藏
Hugging Face2026-01-23 更新2026-01-24 收录
下载链接:
https://huggingface.co/datasets/newmindai/contract-retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个土耳其法律问答检索数据集,采用MTEB(大规模文本嵌入基准)格式构建,包含三个核心组件:查询(法律问题)、语料库(法律文档片段,包括收入分成协议、能源销售协议和银行账户质押协议)以及默认的查询-语料库映射矩阵(qrels)。数据集统计显示,共有272条查询、272条语料库记录和272条默认记录。数据分布显示,查询按文档类型分为收入分成协议(57.7%)、能源销售协议(23.2%)和银行账户质押协议(19.1%)。数据集通过多层AI架构生成,包括生成层(使用OpenAI GPT-4o-mini和Google Gemini 2.0 Flash)、批评层(使用OpenAI GPT-4o)和融合层(使用Google Gemini 2.5 Pro),以确保生成高质量和多样化的问题。数据集适用于土耳其法律文档检索系统、问答系统、嵌入模型评估、RAG应用和MTEB基准测试。
创建时间:
2026-01-16
原始信息汇总

土耳其法律问答检索数据集

数据集概述

这是一个土耳其语法律问答检索数据集,采用MTEB格式构建。数据集包含三个核心组成部分:查询(法律问题)、语料库(法律文档片段)以及默认的查询-语料库映射矩阵。

基本信息

  • 语言:土耳其语
  • 许可证:Apache 2.0
  • 任务类别:文本检索
  • 标签:mteb, retrieval, legal, turkish
  • 数据规模:1K<n<10K

数据集构成与统计

配置详情

  1. 语料库配置

    • 特征_id (字符串), text (字符串), title (字符串), docName (字符串)
    • 训练集:272个样本,144,595字节
    • 下载大小:66,667字节
    • 数据集大小:144,595字节
  2. 默认配置

    • 特征query-id (字符串), corpus-id (字符串), score (int64)
    • 训练集:272个样本,17,408字节
    • 下载大小:5,945字节
    • 数据集大小:17,408字节
  3. 查询配置

    • 特征_id (字符串), text (字符串), title (字符串)
    • 训练集:272个样本,26,951字节
    • 下载大小:14,257字节
    • 数据集大小:26,951字节

数据分布

  • 查询总数:272
  • 语料库文档总数:272
  • 映射关系总数:272

查询按文档类型分布

文档类型 查询数量 百分比
收入分享协议 157 57.7%
能源销售协议 63 23.2%
银行账户质押协议 52 19.1%

数据生成与处理

生成架构

采用多层AI架构生成:

  1. 生成层:使用OpenAI GPT-4o-mini和Google Gemini 2.0 Flash生成多样化问题。
  2. 评判层:使用OpenAI GPT-4o进行质量控制和评估。
  3. 融合层:使用Google Gemini 2.5 Pro进行结果合并与最终确定。

分词器基准与数据过滤

使用七种分词器进行基准测试以测量标记长度并识别异常长序列。以MPNetTokenizerFast为参考分词器,移除了超过数据集特定平均值约7000个标记的样本。

分词器基准统计

分词器 词汇表大小 总标记数 平均标记数 最小标记数 最大标记数 中位数标记数
MPNetTokenizerFast 30,527 3,101,871 2238.002165 424 6986 1479.5
Qwen2TokenizerFast 151,669 2,646,580 1909.509380 408 5972 1304.5
GemmaTokenizerFast 262,145 2,258,694 1629.649351 364 5090 1127
XLMRobertaTokenizerFast 250,002 1,757,806 1268.258297 262 4045 865.5
BertTokenizerFast 32,000 1,477,491 1066.010823 227 3407 737
T5TokenizerFast 32,100 1,420,608 1024.969697 216 3270 706.5
PretrainedTokenizerFast 32,000 1,409,232 1016.761905 212 3218 698

数据集过滤情况

数据集 最大标记数 平均标记数 删除样本数 总样本数
newmindai/court-of-cassation-caselaw 30,527 186.4827586 11 272

可视化

  • Tokenizer / Total Token:https://huggingface.co/datasets/newmindai/contract-retrieval/resolve/main/2025-11-25-15.32.24.png
  • Corr of Vocab Size – Total Token:https://huggingface.co/datasets/newmindai/contract-retrieval/resolve/main/2025-11-25-15.32.41.png

使用场景

  • 土耳其语法律文档检索系统
  • 问答系统
  • 嵌入模型评估
  • 检索增强生成应用
  • MTEB基准测试

引用信息

bibtex @article{mecellem2026, title={Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain}, author={Uğur, Özgür and Göksu, Mahmut and Çimen, Mahmut and Yılmaz, Musa and Şavirdi, Esra and Demir, Alp Talha and Güllüce, Rumeysa and Çetin, İclal and Sağbaş, Ömer Can}, journal={arXiv preprint arXiv:2601.16018}, year={2026}, month={January}, url={https://arxiv.org/abs/2601.16018}, doi={10.48550/arXiv.2601.16018}, eprint={2601.16018}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献者

该数据集由NewMind AI开发。

联系方式

如有问题请联系:info@newmind.ai

搜集汇总
数据集介绍
main_image_url
构建方式
在土耳其法律信息检索领域,该数据集采用多层次人工智能架构精心构建。生成层融合了OpenAI GPT-4o-mini与Google Gemini 2.0 Flash模型,分别负责高效与多样化的法律问题生成。随后,批评层通过OpenAI GPT-4o对生成问题进行质量评估与控制。最终,融合层借助Google Gemini 2.5 Pro整合并优化输出结果。数据预处理阶段,研究团队以MPNetTokenizerFast为基准,对语料进行了严格的序列长度分析,移除了显著偏离平均长度的异常样本,确保了数据分布的均衡性与输入质量。
特点
本数据集专为土耳其法律文本检索设计,其核心特征体现在结构化与专业性上。数据严格遵循MTEB基准格式,清晰划分为查询、语料库及关联矩阵三个独立组件。语料内容聚焦于三类关键法律合同,即收益分享协议、能源销售协议与银行账户质押协议,覆盖了商业法律实践的核心范畴。数据规模适中,包含272条平行样本,在合同类型间呈现自然分布,为模型训练提供了兼具代表性与复杂度的测试环境。可视化分析进一步揭示了文本的词汇复杂度与长度模式,为深入理解数据特性提供了依据。
使用方法
该数据集主要服务于土耳其法律文档检索系统的开发与评估。使用者可依据MTEB标准流程,将查询集与文档语料库输入检索模型,并通过预定义的关联矩阵验证检索结果的准确性。它适用于训练和评估各类嵌入模型,特别是在构建针对土耳其语的法律问答系统或检索增强生成应用时,能提供高质量的基准测试数据。研究人员亦可利用其进行跨语言法律信息检索的对比研究,或将其纳入更广泛的文本嵌入基准测试套件中,以衡量模型在专业领域的性能。
背景与挑战
背景概述
在自然语言处理与法律信息检索的交叉领域,针对特定语言的专用数据集对于推动领域发展至关重要。Contract-Retrieval数据集由NewMind AI团队于2026年创建,作为土耳其语法律问答检索的基准资源,旨在解决法律文档智能检索的核心研究问题。该数据集严格遵循大规模文本嵌入基准格式,涵盖了收入分享协议、能源销售协议及银行账户质押协议三类法律文书,共计272条查询与对应语料。其构建依托于多层级人工智能架构,融合了GPT-4o-mini、Gemini 2.0 Flash等先进模型进行生成与质量控制,为土耳其语法律领域的检索增强生成与嵌入模型评估提供了重要基础。
当前挑战
该数据集致力于应对土耳其语法律文档检索的固有挑战,其核心在于从复杂的合同文本中精准定位与自然语言查询相匹配的片段,这要求模型深刻理解法律术语的细微差别与长程上下文依赖。在构建过程中,团队面临数据质量与多样性的平衡难题,需通过多模型协同生成并经过严格批评层筛选以确保问题的真实性与覆盖面。此外,预处理阶段涉及对多种分词器的基准测试,以识别并过滤异常长序列样本,例如使用MPNet分词器作为参考移除超出平均约7000个标记的离群值,这一过程对维持数据分布的均衡性与模型训练的稳定性提出了技术要求。
常用场景
经典使用场景
在土耳其语法律信息检索领域,该数据集为评估和优化文本检索模型提供了标准化的基准。其经典使用场景集中于法律文档的精准检索,通过模拟真实的法律咨询过程,将用户提出的法律问题与合同文档中的相关段落进行匹配。这种检索任务不仅考验模型对土耳其语法律术语的理解能力,还要求模型能够处理复杂的法律条文结构和语义关联,从而为构建高效的法律智能系统奠定数据基础。
衍生相关工作
围绕该数据集,已衍生出一系列重要的研究工作,其中最突出的是‘Mecellem Models’项目。该项目利用此数据集及其他法律语料,训练了专门针对土耳其法律领域的预训练语言模型与嵌入模型。这些模型不仅在MTEB等通用基准上表现优异,更在法律特定的检索与问答任务中设立了新的性能标准,为后续针对土耳其乃至其他低资源语言的法律人工智能研究提供了可复现的模型架构与训练范式。
数据集最近研究
最新研究方向
在土耳其语法律信息检索领域,contract-retrieval数据集正推动着多语言法律智能的前沿探索。该数据集以MTEB格式构建,专注于土耳其语法律文档的检索任务,其最新研究聚焦于提升跨语言法律文本的语义理解与检索精度。随着全球法律科技的发展,特别是土耳其本土法律人工智能应用的兴起,该数据集为训练和评估专门针对土耳其语的法律检索模型提供了关键资源。研究者们正利用其平衡的文档类型分布和高质量的问题生成架构,探索基于深度学习的检索增强生成系统,以应对法律文档的复杂性与专业性。这些进展不仅促进了土耳其语自然语言处理技术的本地化发展,也为多语言法律信息检索系统的构建提供了重要参考,具有显著的学术与应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作