dnsy-1

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/fikriokan/dnsy-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含法律或行政决定文本的数据集，具体包括决定编号、决定日期、关键字等元信息，以及决定文本内容。数据集被分为多个部分，每部分包含一定数量的示例。

创建时间：

2025-08-08

原始信息汇总

数据集概述

基本信息

数据集名称: dnsy-1
下载大小: 463,066,023 字节
数据集大小: 498,197,842 字节
配置名称: default

数据特征

id: 字符串类型
daireKurul: 字符串类型
esasNo: 字符串类型
kararNo: 字符串类型
kararTarihi: 字符串类型
arananKelime: 字符串类型
index: 整型 (int64)
text: 字符串类型

数据分片

分片名称	字节大小	样本数量
28000_28598	4,811,329	598
0_2000	60,139,191	2,000
2000_4000	33,517,921	2,000
4000_6000	32,702,634	2,000
6000_8000	38,627,068	2,000
8000_10000	40,587,360	2,000
10000_12000	36,160,805	2,000
12000_14000	25,530,897	2,000
14000_16000	23,323,766	2,000
16000_18000	24,821,973	2,000
18000_20000	20,979,298	2,000
20000_22000	18,285,713	2,000
22000_24000	17,268,957	2,000
24000_26000	17,835,503	2,000
26000_28000	15,211,922	2,000
28000_30000	14,452,968	2,000
30000_32000	18,816,499	2,000
32000_34000	22,399,168	2,000
34000_36000	16,759,388	2,000
36000_38000	15,305,647	2,000
38000_38099	659,835	99

数据文件路径

配置名称: default
数据文件路径:
- data/0_2000-*
- data/2000_4000-*
- data/4000_6000-*
- data/6000_8000-*
- data/8000_10000-*
- data/10000_12000-*
- data/12000_14000-*
- data/14000_16000-*
- data/16000_18000-*
- data/18000_20000-*
- data/20000_22000-*
- data/22000_24000-*
- data/24000_26000-*
- data/26000_28000-*
- data/28000_28598-*
- data/28000_30000-*
- data/30000_32000-*
- data/32000_34000-*
- data/34000_36000-*
- data/36000_38000-*
- data/38000_38099-*

搜集汇总

数据集介绍

构建方式

dnsy-1数据集作为法律文本分析领域的重要资源，其构建过程体现了系统性数据采集与结构化处理的专业方法。数据集通过分块策略将38099条法律文书记录划分为21个数据块，每个数据块包含2000条记录（末块99条），采用分布式存储架构确保数据管理的效率。每条记录包含id、法庭名称、案件编号、裁决编号、裁决日期、关键词、索引及全文文本等8个结构化字段，字段设计兼顾法律文书的关键要素与文本分析需求。数据规模达498MB的原始文本经过规范化处理，形成标准化的JSON格式存储体系。

使用方法

研究者可通过HuggingFace平台便捷获取该数据集，下载后按需加载特定数据块进行局部分析或完整加载进行全面研究。标准化的字段结构支持直接提取法庭名称、裁决日期等元数据进行统计分析，text字段适用于法律文本的向量化表示或深度学习模型训练。分块存储设计允许根据计算资源灵活选择数据处理规模，建议使用Python的datasets库实现流式加载以优化内存使用。针对特定研究目标，可结合关键词字段(arananKelime)进行数据筛选，或利用索引字段建立跨数据块的关联分析。

背景与挑战

背景概述

dnsy-1数据集是一个聚焦于法律文本分析的专用数据集，其结构化的特征设计反映了对司法决策文本的深度解析需求。该数据集收录了包含案件编号、裁决日期、关键词检索等关键字段的司法文书，其分块存储的设计模式暗示了处理大规模法律文本的工程考量。在法律自然语言处理领域，此类数据集的构建往往服务于司法智能化研究，为法律文本分类、裁决预测等任务提供基础支持。从数据规模推断，该数据集可能源自某国司法系统近年来的数字化成果，其标准化字段设计体现了法律文本结构化处理的学术趋势。

当前挑战

该数据集面临的挑战主要体现在两个维度：领域问题的复杂性要求模型必须处理法律文本特有的专业术语体系和逻辑结构，这对自然语言处理技术提出了更高要求；数据构建过程中，司法文书的非标准化表述、不同法院的格式差异以及敏感信息脱敏处理等技术难题需要克服。分块存储的38个数据子集反映出原始数据存在显著的规模异质性，这对数据预处理和质量控制提出了特殊要求。法律文本特有的时效性特征也使得数据集的版本维护成为持续挑战。

常用场景

经典使用场景

在法律文本挖掘领域，dnsy-1数据集因其结构化的法律决策记录而成为研究焦点。该数据集收录了大量法律案例的文本信息，包括案件编号、决策日期、关键词等字段，为研究人员提供了丰富的法律文本分析素材。经典使用场景包括法律文本分类、案例相似性分析以及法律决策模式挖掘。通过该数据集，研究者能够深入探索法律文本的语义特征，为法律智能系统的开发奠定基础。

解决学术问题

dnsy-1数据集有效解决了法律文本分析中的若干关键问题。首先，它提供了标准化的法律案例数据，填补了法律领域高质量文本数据集的空白。其次，数据集中的结构化字段（如关键词和决策日期）支持时间序列分析和主题演化研究。最重要的是，该数据集为法律自然语言处理任务（如判决预测和法律条文推荐）提供了可靠的基准数据，推动了法律人工智能领域的发展。

实际应用

在法律实务中，dnsy-1数据集展现出广泛的应用前景。法律科技公司利用该数据集训练智能法律助手，实现快速案例检索和法律条文推荐。司法机构则通过分析数据集中的历史判决模式，辅助法官进行量刑决策。此外，法学研究者运用该数据集进行法律实证研究，揭示司法实践中的潜在规律和趋势，为法律改革提供数据支持。

数据集最近研究