turkish-constitutional-court-violation

Hugging Face2025-12-22 更新2025-12-23 收录

下载链接：

https://huggingface.co/datasets/denizgulal/turkish-constitutional-court-violation

下载链接

链接失效反馈

官方服务：

资源简介：

TurkishConstitutionalCourtViolation数据集是一个用于二元分类任务的土耳其语数据集，旨在对土耳其宪法法院的决定进行分类，判断其是否违反宪法（Violation vs No violation）。数据集由人工标注，采用CC-BY-4.0许可证，包含训练集（870个样本）、测试集（193个样本）和验证集（183个样本）。数据集来源于KocLab-Bilkent/turkish-constitutional-court，并经过MTEB（Massive Text Embedding Benchmark）的处理。该数据集适用于法律领域的文本分类任务，特别是与土耳其宪法法院相关的非虚构文本。

创建时间：

2025-12-22

原始信息汇总

TurkishConstitutionalCourtViolation 数据集概述

基本信息

数据集名称: TurkishConstitutionalCourtViolation
任务类型: 文本分类（二元分类）
任务描述: 对土耳其宪法法院判决进行分类：侵权（Violation）与未侵权（No violation）
任务类别: t2c
领域: 法律、非虚构
语言: 土耳其语（turkish）
多语言性: 单语
许可证: CC-BY-4.0
标注创建者: 人工标注

数据来源

源数据集: KocLab-Bilkent/turkish-constitutional-court
源数据集参考链接: https://huggingface.co/datasets/KocLab-Bilkent/turkish-constitutional-court

数据集结构

特征:
- text: 字符串类型
- label: 整数类型（int64）
数据分割:
- 训练集（train）: 870 个样本
- 测试集（test）: 193 个样本
- 验证集（validation）: 183 个样本
数据量总计: 1246 个样本
数据集大小: 10456929 字节
下载大小: 4767785 字节

评估信息

基准框架: MTEB（Massive Text Embedding Benchmark）
评估代码示例: 可使用 mteb 库进行评估，任务名称为 "TurkishConstitutionalCourtViolation"
MTEB GitHub 仓库: https://github.com/embeddings-benchmark/mteb

引用

如需使用此数据集，请引用以下文献：

源数据集相关论文（Mumcuoğlu 等人，2021）
MMTEB 基准论文（Enevoldsen 等人，2025）
MTEB 基准论文（Muennighoff 等人，2022）

在法律文本挖掘领域，土耳其宪法法院判决数据集为自然语言处理研究提供了宝贵的资源。该数据集源自KocLab-Bilkent/turkish-constitutional-court原始语料，经过人工标注流程构建而成。标注者依据专业法律知识，对每份法院判决文本进行二元分类，标记为“违反宪法”或“未违反宪法”两类。整个数据集包含1246个样本，划分为训练集、验证集和测试集三部分，确保了模型训练与评估的科学性。这种基于源数据集二次加工的方式，既保留了法律文本的专业性，又为机器学习任务提供了结构化标注。

特点

作为专门针对土耳其法律领域的文本分类数据集，其最显著的特点在于领域特异性与语言单一性。数据集全部采用土耳其语撰写，内容聚焦于宪法法院的判决文书，属于典型的专业领域文本。样本规模适中且划分合理，训练集包含870个实例，验证集和测试集分别提供183和193个实例，为模型性能评估提供了可靠基础。数据集采用CC BY 4.0许可协议，支持学术研究自由使用。作为MTEB基准测试的组成部分，该数据集特别适用于评估文本嵌入模型在法律领域的跨任务迁移能力。

使用方法

在自然语言处理实践中，该数据集主要用于文本嵌入模型的性能评估。研究人员可通过MTEB框架直接调用该任务进行标准化测试。使用流程简洁明了：首先导入mteb库并获取特定任务实例，然后初始化评估器并加载待测模型，最后执行评估流程即可获得模型在该数据集上的性能指标。这种集成化评估方式极大简化了实验流程，使研究者能够专注于模型改进而非数据预处理。数据集特别适用于法律文本分类、土耳其语自然语言理解以及专业领域嵌入模型评估等研究方向。

背景与挑战

背景概述

土耳其宪法法院侵权数据集由KocLab-Bilkent团队于2021年构建，旨在推动法律领域的自然语言处理研究。该数据集源自土耳其宪法法院的判决文书，专注于二元分类任务，即判断法院判决是否构成侵权。其核心研究问题在于利用机器学习模型预测司法结果，从而辅助法律专业人士进行案例分析与决策。该数据集作为大规模文本嵌入基准（MTEB）的一部分，为评估文本嵌入模型在法律文本上的性能提供了重要资源，对促进跨语言法律智能系统的发展具有显著影响力。

当前挑战

该数据集所解决的领域问题涉及法律文本分类，其挑战在于法律语言的复杂性与专业性，包括术语的精确性、上下文依赖性强以及判决逻辑的隐含性，这些因素使得模型难以准确捕捉侵权判定的细微差别。在构建过程中，数据集面临标注一致性的难题，由于法律判决需要专业领域知识，人工标注易受主观判断影响，且土耳其语作为低资源语言，缺乏成熟的预处理工具，增加了数据清洗与标准化的复杂度。

常用场景

经典使用场景

在司法智能领域，土耳其宪法法院违宪判决数据集为文本分类任务提供了经典范例。该数据集聚焦于土耳其宪法法院的判决文书，通过人工标注构建了违宪与非违宪的二元分类标签。研究者通常利用这一数据集训练和评估机器学习模型，特别是嵌入模型在司法文本上的表征能力。其经典使用场景涉及对法院判决进行自动分类，以识别其中是否存在违宪情形，这为法律文本的自动化处理奠定了实证基础。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究工作。原始研究《Natural language processing in law: Prediction of outcomes in the higher courts of Turkey》率先利用该数据预测土耳其高等法院的判决结果，为后续研究奠定了基础。此外，该数据集被纳入大规模文本嵌入基准（MTEB）及其多语言扩展MMTEB中，成为评估嵌入模型在法律领域性能的重要任务之一。这些工作共同推动了法律文本挖掘与司法预测模型的发展，并促进了跨语言法律人工智能研究的国际协作。

数据集最近研究