caselaw-retrieval

Hugging Face2026-01-23 更新2026-01-24 收录

下载链接：

https://huggingface.co/datasets/newmindai/caselaw-retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含土耳其最高法院（Yargıtay）民事审判庭类别的判例法，旨在生成分层的'案例摘要关键词'（Catchwords）并用于基于文本的信息检索任务。数据集针对MTEB（大规模文本嵌入基准）分词器基准测试进行了优化，每个查询-语料库对都经过过滤，最大令牌限制为7000。数据集由三个主要子集组成：查询（包含最高法院判决的案例摘要关键词）、语料库（包含最高法院判决的全文）和qrels（查询与语料库之间的关系）。数据集采用多层LLM架构生成，并经过分词器基准测试和过滤处理，以确保数据质量。

创建时间：

2026-01-16

原始信息汇总

Court of Cassation Caselaw Dataset 数据集概述

数据集基本信息

数据集名称：Court of Cassation Caselaw Dataset
语言：土耳其语 (tr)
许可证：Creative Commons Attribution 4.0 (CC-BY-4.0)
任务类别：文本检索 (text-retrieval)
领域：法律 (legal)
数据规模：1K<n<10K
来源：土耳其共和国最高法院 (Yargıtay)
类别：民事庭全体会议 (General Assembly of Civil Chambers) 的判决

数据集结构与内容

数据集包含三个主要子集，均位于“train”划分中。

1. 语料库 (corpus)

内容：土耳其最高法院判决的完整文本。
特征：
- _id：字符串类型，文档标识符。
- text：字符串类型，判决详细内容。
数据量：1,381 个样本。
下载大小：2,136,913 字节。
数据集大小：7,282,228 字节。

2. 查询 (queries)

内容：最高法院判决中的“案例摘要关键词”（Catchwords），即判决的法律摘要和关键概念。
特征：
- _id：字符串类型，查询标识符。
- text：字符串类型，查询文本。
数据量：1,386 个样本。
下载大小：206,376 字节。
数据集大小：543,413 字节。

3. 相关性判断 (qrels)

内容：查询与语料库文档之间的相关性关系。
特征：
- query-id：字符串类型，查询ID。
- corpus-id：字符串类型，语料库文档ID。
- score：int64类型，相关性分数。
数据量：1,386 个样本。
下载大小：64,768 字节。
数据集大小：111,183 字节。

数据集设计目的

用于生成层次化的“案例摘要关键词”。
用于基于文本的信息检索任务。
针对大规模文本嵌入基准（MTEB）分词器基准测试进行了优化，每个查询-语料对都经过过滤，最大令牌限制为7000。

数据生成过程

采用多层大语言模型架构生成：

生成层：使用 OpenAI GPT-4o 和 Google Gemini 2.0 Flash 生成多种查询变体。
评判层：使用 OpenAI GPT-4o 评估生成的查询并提供改进建议。
融合层：使用 Google Gemini 2.5 Pro 结合最高质量的结果并创建最终查询。

分词器基准与数据过滤

使用七种分词器（MPNet, Qwen2, Gemma, XLM-R, BERT, Pretrained, T5）对数据集进行基准测试，以测量令牌长度并识别异常长序列。
以生成总令牌数最多的 MPNetTokenizerFast 作为参考分词器，移除了超过数据集特定平均值约7000个令牌的样本。
本数据集 (newmindai/caselaw-retrieval) 的过滤结果：删除样本数为0，总样本数为1,386，最大令牌数为1,386，平均令牌数为2,281。

主要用途

信息检索：法律文本语义搜索、先例查找系统、法律咨询聊天机器人。
嵌入模型评估：MTEB基准测试、土耳其法律领域模型性能比较、分词器基准测试。
法律NLP研究：法律文本分类、判决摘要生成、关键词提取。

基准测试

该数据集根据大规模文本嵌入基准标准，为 Mizan 基准测试准备。
基准结果链接：https://huggingface.co/spaces/newmindai/Mizan

使用示例

python from datasets import load_dataset dataset = load_dataset("newmindai/caselaw-retrieval") queries = dataset["queries"] corpus = dataset["corpus"] qrels = dataset["qrels"]

引用

bibtex @article{mecellem2026, title={Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain}, author={Uğur, Özgür and Göksu, Mahmut and Çimen, Mahmut and Yılmaz, Musa and Şavirdi, Esra and Demir, Alp Talha and Güllüce, Rumeysa and Çetin, İclal and Sağbaş, Ömer Can}, journal={arXiv preprint arXiv:2601.16018}, year={2026}, month={January}, url={https://arxiv.org/abs/2601.16018}, doi={10.48550/arXiv.2601.16018}, eprint={2601.16018}, archivePrefix={arXiv}, primaryClass={cs.CL} }

联系

如有问题，请联系：info@newmind.ai

搜集汇总

数据集介绍

构建方式

在司法信息检索领域，土耳其最高法院判例数据集采用了一种创新的多层大语言模型架构进行构建。该过程首先利用生成层模型，包括OpenAI GPT-4o和Google Gemini 2.0 Flash，以多样化的方式生成初步的案例摘要关键词。随后，批评层模型GPT-4o对生成内容进行严格评估与筛选，提出改进建议。最终，融合层模型Gemini 2.5 Pro整合高质量输出，形成最终的查询文本。为确保数据质量，构建过程还引入了基于MPNet等七种分词器的基准测试，对查询-语料对进行了严格的序列长度过滤，移除了超出特定令牌上限的样本，从而保障了数据在嵌入模型评估中的均衡性与适用性。

使用方法

该数据集主要服务于法律信息检索、嵌入模型评估及相关自然语言处理研究。使用者可通过Hugging Face的`datasets`库直接加载，分别访问`queries`、`corpus`和`qrels`三个配置，以获取查询、文档及其关联关系。在信息检索应用中，可基于查询文本在语料库中进行语义相似度计算，构建判例查找系统。对于模型评估，该数据集适用于MTEB等基准测试，用以衡量不同嵌入模型在法律领域的检索效能。研究人员亦可将其用于法律文本分类、摘要生成等任务的训练与验证，通过分析查询与判决全文的对应关系，深入探索法律文本的结构化表征。

背景与挑战

背景概述

土耳其最高法院判例检索数据集（caselaw-retrieval）由Newmind.ai团队于2026年前后构建，专注于土耳其法律领域的文本检索任务。该数据集源自土耳其最高法院民事总委员会的判例文书，旨在为法律信息检索、先例查找系统以及法律自然语言处理研究提供结构化资源。其核心研究问题聚焦于如何从复杂的法律文本中高效提取语义信息，并建立查询与判例全文之间的精准关联，以支持司法智能化应用。该数据集的发布丰富了土耳其语法律文本资源的多样性，为嵌入模型评估和检索算法研究提供了重要基准，对推动法律人工智能在特定语言文化背景下的发展具有显著影响力。

当前挑战

该数据集致力于解决法律信息检索领域的核心挑战，即如何从冗长且专业术语密集的判例文本中，精准匹配用户以自然语言或关键词形式提出的查询需求。法律文本固有的逻辑严密性和语境依赖性，使得传统检索模型难以捕捉深层语义关联，这构成了领域问题的主要难点。在构建过程中，研究团队面临多重挑战：首先，原始判例文书结构复杂，需通过多层大语言模型架构进行自动化摘要生成与关键词提取，确保生成内容的法律准确性；其次，为适配大规模文本嵌入基准测试，必须对数据进行严格的令牌长度过滤，以平衡序列分布并消除异常长样本，这一过程涉及对多种分词器的细致评估与筛选，增加了数据预处理的复杂度。

常用场景

经典使用场景

在司法信息检索领域，caselaw-retrieval数据集为土耳其最高法院民事总会议庭的判例提供了结构化文本资源。该数据集的核心应用场景聚焦于法律文本的语义检索，通过将判例摘要关键词与完整判决文书进行关联，构建了一个高效的先例查找系统。研究人员和实务工作者能够利用该数据集，开发智能法律咨询工具，实现基于自然语言查询的相关判例精准匹配，从而提升法律研究的效率和准确性。

解决学术问题

该数据集主要解决了法律自然语言处理领域中的若干关键学术问题，包括跨语言法律文本的语义理解、长序列法律文档的信息检索，以及特定领域嵌入模型的性能评估。通过提供经过多层大语言模型架构生成的优质查询-文档对，它为研究法律文本的表示学习、检索模型在低资源语言上的适应性，以及司法先例的自动摘要生成等课题提供了基准数据，推动了法律人工智能在非英语语境下的理论发展。

实际应用

在实际应用层面，该数据集直接服务于土耳其司法系统的数字化转型。它能够嵌入到法院的案件管理系统中，辅助法官和律师快速检索历史相似判例，为判决推理提供参考。同时，该数据集也为法律科技公司开发面向公众的智能法律问答机器人或法律信息服务平台提供了核心数据支撑，使得普通民众能够更便捷地获取专业、准确的法律先例信息，促进了司法资源的普惠化。

数据集最近研究