caselaw-retrieval
收藏Court of Cassation Caselaw Dataset 数据集概述
数据集基本信息
- 数据集名称:Court of Cassation Caselaw Dataset
- 语言:土耳其语 (tr)
- 许可证:Creative Commons Attribution 4.0 (CC-BY-4.0)
- 任务类别:文本检索 (text-retrieval)
- 领域:法律 (legal)
- 数据规模:1K<n<10K
- 来源:土耳其共和国最高法院 (Yargıtay)
- 类别:民事庭全体会议 (General Assembly of Civil Chambers) 的判决
数据集结构与内容
数据集包含三个主要子集,均位于“train”划分中。
1. 语料库 (corpus)
- 内容:土耳其最高法院判决的完整文本。
- 特征:
_id:字符串类型,文档标识符。text:字符串类型,判决详细内容。
- 数据量:1,381 个样本。
- 下载大小:2,136,913 字节。
- 数据集大小:7,282,228 字节。
2. 查询 (queries)
- 内容:最高法院判决中的“案例摘要关键词”(Catchwords),即判决的法律摘要和关键概念。
- 特征:
_id:字符串类型,查询标识符。text:字符串类型,查询文本。
- 数据量:1,386 个样本。
- 下载大小:206,376 字节。
- 数据集大小:543,413 字节。
3. 相关性判断 (qrels)
- 内容:查询与语料库文档之间的相关性关系。
- 特征:
query-id:字符串类型,查询ID。corpus-id:字符串类型,语料库文档ID。score:int64类型,相关性分数。
- 数据量:1,386 个样本。
- 下载大小:64,768 字节。
- 数据集大小:111,183 字节。
数据集设计目的
- 用于生成层次化的“案例摘要关键词”。
- 用于基于文本的信息检索任务。
- 针对大规模文本嵌入基准(MTEB)分词器基准测试进行了优化,每个查询-语料对都经过过滤,最大令牌限制为7000。
数据生成过程
采用多层大语言模型架构生成:
- 生成层:使用 OpenAI GPT-4o 和 Google Gemini 2.0 Flash 生成多种查询变体。
- 评判层:使用 OpenAI GPT-4o 评估生成的查询并提供改进建议。
- 融合层:使用 Google Gemini 2.5 Pro 结合最高质量的结果并创建最终查询。
分词器基准与数据过滤
- 使用七种分词器(MPNet, Qwen2, Gemma, XLM-R, BERT, Pretrained, T5)对数据集进行基准测试,以测量令牌长度并识别异常长序列。
- 以生成总令牌数最多的 MPNetTokenizerFast 作为参考分词器,移除了超过数据集特定平均值约7000个令牌的样本。
- 本数据集 (
newmindai/caselaw-retrieval) 的过滤结果:删除样本数为0,总样本数为1,386,最大令牌数为1,386,平均令牌数为2,281。
主要用途
- 信息检索:法律文本语义搜索、先例查找系统、法律咨询聊天机器人。
- 嵌入模型评估:MTEB基准测试、土耳其法律领域模型性能比较、分词器基准测试。
- 法律NLP研究:法律文本分类、判决摘要生成、关键词提取。
基准测试
- 该数据集根据大规模文本嵌入基准标准,为 Mizan 基准测试准备。
- 基准结果链接:https://huggingface.co/spaces/newmindai/Mizan
使用示例
python from datasets import load_dataset dataset = load_dataset("newmindai/caselaw-retrieval") queries = dataset["queries"] corpus = dataset["corpus"] qrels = dataset["qrels"]
引用
bibtex @article{mecellem2026, title={Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain}, author={Uğur, Özgür and Göksu, Mahmut and Çimen, Mahmut and Yılmaz, Musa and Şavirdi, Esra and Demir, Alp Talha and Güllüce, Rumeysa and Çetin, İclal and Sağbaş, Ömer Can}, journal={arXiv preprint arXiv:2601.16018}, year={2026}, month={January}, url={https://arxiv.org/abs/2601.16018}, doi={10.48550/arXiv.2601.16018}, eprint={2601.16018}, archivePrefix={arXiv}, primaryClass={cs.CL} }
联系
如有问题,请联系:info@newmind.ai




