contract-retrieval
收藏土耳其法律问答检索数据集
数据集概述
这是一个土耳其语法律问答检索数据集,采用MTEB格式构建。数据集包含三个核心组成部分:查询(法律问题)、语料库(法律文档片段)以及默认的查询-语料库映射矩阵。
基本信息
- 语言:土耳其语
- 许可证:Apache 2.0
- 任务类别:文本检索
- 标签:mteb, retrieval, legal, turkish
- 数据规模:1K<n<10K
数据集构成与统计
配置详情
-
语料库配置
- 特征:
_id(字符串),text(字符串),title(字符串),docName(字符串) - 训练集:272个样本,144,595字节
- 下载大小:66,667字节
- 数据集大小:144,595字节
- 特征:
-
默认配置
- 特征:
query-id(字符串),corpus-id(字符串),score(int64) - 训练集:272个样本,17,408字节
- 下载大小:5,945字节
- 数据集大小:17,408字节
- 特征:
-
查询配置
- 特征:
_id(字符串),text(字符串),title(字符串) - 训练集:272个样本,26,951字节
- 下载大小:14,257字节
- 数据集大小:26,951字节
- 特征:
数据分布
- 查询总数:272
- 语料库文档总数:272
- 映射关系总数:272
查询按文档类型分布
| 文档类型 | 查询数量 | 百分比 |
|---|---|---|
| 收入分享协议 | 157 | 57.7% |
| 能源销售协议 | 63 | 23.2% |
| 银行账户质押协议 | 52 | 19.1% |
数据生成与处理
生成架构
采用多层AI架构生成:
- 生成层:使用OpenAI GPT-4o-mini和Google Gemini 2.0 Flash生成多样化问题。
- 评判层:使用OpenAI GPT-4o进行质量控制和评估。
- 融合层:使用Google Gemini 2.5 Pro进行结果合并与最终确定。
分词器基准与数据过滤
使用七种分词器进行基准测试以测量标记长度并识别异常长序列。以MPNetTokenizerFast为参考分词器,移除了超过数据集特定平均值约7000个标记的样本。
分词器基准统计
| 分词器 | 词汇表大小 | 总标记数 | 平均标记数 | 最小标记数 | 最大标记数 | 中位数标记数 |
|---|---|---|---|---|---|---|
| MPNetTokenizerFast | 30,527 | 3,101,871 | 2238.002165 | 424 | 6986 | 1479.5 |
| Qwen2TokenizerFast | 151,669 | 2,646,580 | 1909.509380 | 408 | 5972 | 1304.5 |
| GemmaTokenizerFast | 262,145 | 2,258,694 | 1629.649351 | 364 | 5090 | 1127 |
| XLMRobertaTokenizerFast | 250,002 | 1,757,806 | 1268.258297 | 262 | 4045 | 865.5 |
| BertTokenizerFast | 32,000 | 1,477,491 | 1066.010823 | 227 | 3407 | 737 |
| T5TokenizerFast | 32,100 | 1,420,608 | 1024.969697 | 216 | 3270 | 706.5 |
| PretrainedTokenizerFast | 32,000 | 1,409,232 | 1016.761905 | 212 | 3218 | 698 |
数据集过滤情况
| 数据集 | 最大标记数 | 平均标记数 | 删除样本数 | 总样本数 |
|---|---|---|---|---|
newmindai/court-of-cassation-caselaw |
30,527 | 186.4827586 | 11 | 272 |
可视化
- Tokenizer / Total Token:https://huggingface.co/datasets/newmindai/contract-retrieval/resolve/main/2025-11-25-15.32.24.png
- Corr of Vocab Size – Total Token:https://huggingface.co/datasets/newmindai/contract-retrieval/resolve/main/2025-11-25-15.32.41.png
使用场景
- 土耳其语法律文档检索系统
- 问答系统
- 嵌入模型评估
- 检索增强生成应用
- MTEB基准测试
引用信息
bibtex @article{mecellem2026, title={Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain}, author={Uğur, Özgür and Göksu, Mahmut and Çimen, Mahmut and Yılmaz, Musa and Şavirdi, Esra and Demir, Alp Talha and Güllüce, Rumeysa and Çetin, İclal and Sağbaş, Ömer Can}, journal={arXiv preprint arXiv:2601.16018}, year={2026}, month={January}, url={https://arxiv.org/abs/2601.16018}, doi={10.48550/arXiv.2601.16018}, eprint={2601.16018}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献者
该数据集由NewMind AI开发。
联系方式
如有问题请联系:info@newmind.ai




