epdk_elektrik_piyasasi_mevzuat

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/ogulcanakca/epdk_elektrik_piyasasi_mevzuat

下载链接

链接失效反馈

官方服务：

资源简介：

土耳其能源市场立法数据集包含从大约3300份与土耳其能源市场监管机构（EPDK）和土耳其电力市场立法相关的文档中提取的清洁文本。该数据集用于促进大型语言模型在土耳其能源监管领域的域自适应。

创建时间：

2025-04-23

原始信息汇总

EPDK Electricity Market Legislation Dataset 概述

数据集基本信息

名称: EPDK Electricity Market Legislation Dataset
语言: 土耳其语 (tr)
许可证: Apache-2.0
大小类别: 1K<n<10K
下载大小: 70,357,154 bytes
数据集大小: 142,398,992 bytes
数据格式: JSON Lines (.jsonl)

数据集内容

数据来源: 土耳其能源市场监管机构 (EPDK) 相关文档
文档类型: PDF, DOCX, DOC, XLSX (包含需OCR处理的扫描文档)
处理状态: 已清理但未分块的文本
条目数量: 3,424 个
字段:
- source_file: 源文件路径
- extracted_text: 提取的文本内容

主要用途

主要任务: 语言建模 (领域适应)
潜在下游任务:
- EPDK法规问答系统
- 法律/法规文档摘要
- 文本分类 (如文档类型识别)

技术特征

特征类型: 文本
数据分割: 仅包含训练集 (train)
配置名称: default

引用信息

json @dataset{ogulcanakca_epdk_mevzuat, author = {ogulcanakca}, title = {EPDK Electricity Market Legislation Dataset}, year = {2025}, url = "https://huggingface.co/datasets/ogulcanakca/epdk_elektrik_piyasasi_mevzuat" }

联系方式

联系人: akca_ogulcan@hotmail.com

搜集汇总

数据集介绍

构建方式

该数据集聚焦于土耳其能源市场监管领域，通过系统化采集EPDK（土耳其能源市场监管机构）约3300份法规文档构建而成。原始文档涵盖PDF、DOCX等多种格式，包含需经OCR技术处理的扫描文件。构建过程中采用文本提取与清洗技术，保留原始文档语义结构的同时去除格式噪音，最终形成以JSON Lines格式存储的标准化语料库，每条记录对应一份处理后的法规文档。

特点

作为土耳其能源法规领域的专业语料库，该数据集具有鲜明的领域特异性与语言单一性。全部文本均为土耳其语，内容涵盖电力市场计量规则、监管条例等专业法律文本，包含大量术语与正式法律表述。数据未经分块处理，完整保留原始文档的篇章结构，为语言模型提供丰富的上下文信息。其3424个文档实例构成中等规模语料，特别适合领域自适应预训练任务。

使用方法

该数据集主要服务于法律领域的自然语言处理研究，推荐以领域自适应预训练为核心应用场景。研究人员可通过持续预训练或微调方式，使通用语言模型掌握土耳其能源法规的专业知识。使用时应加载JSON Lines格式数据，重点关注extracted_text字段的文本内容。典型应用包括构建法规问答系统、文档自动摘要等下游任务，使用时需注意土耳其语特有的形态学特征与法律文本的句式复杂性。

背景与挑战

背景概述

EPDK电力市场法规数据集由研究者ogulcanakca于2025年构建，旨在解决土耳其能源监管领域专业文本的语言模型适应问题。该数据集收录了土耳其能源市场监管局（EPDK）发布的约3300份电力市场法规文档，涵盖PDF、DOCX等多种格式，部分扫描文档经过光学字符识别处理。作为首个专注于土耳其能源法规领域的文本语料库，该数据集为法律文本挖掘、领域自适应预训练等研究提供了重要资源，推动了土耳其语专业领域自然语言处理技术的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，土耳其能源法规文本包含大量专业术语和复杂法律句式，对语言模型的领域适应能力提出极高要求；同时法规条款间的关联性分析需要深度语义理解。在构建过程层面，原始文档格式异构性强，扫描件存在OCR识别错误风险，且土耳其语特有的形态学特征增加了文本清洗难度。此外，法律文本的时效性要求数据集必须持续更新以反映法规修订动态。

常用场景

经典使用场景

在能源市场监管领域，EPDK电力市场法规数据集为研究者提供了丰富的土耳其语法律文本资源。该数据集最经典的使用场景是作为领域自适应语言模型的训练素材，通过持续预训练或微调因果语言模型，使其能够准确理解和生成与土耳其能源法规相关的专业文本。研究人员可利用这些结构化数据开展法律文本分析、信息抽取等任务，为能源政策研究奠定数据基础。

解决学术问题

该数据集有效解决了能源法律文本处理中的领域适应难题。传统语言模型在专业法规文本上表现欠佳，而此数据集通过提供3,300余份经过清洗的土耳其能源法规文档，填补了非英语法律文本资源的空白。其意义在于支持细粒度的法律语义理解研究，推动跨语言法律人工智能的发展，并为土耳其能源政策量化分析提供可计算文本素材。

衍生相关工作

该数据集催生了多个能源法律AI研究方向。基于此开展的经典工作包括土耳其语法律BERT的领域适应研究、能源法规多标签分类系统开发等。部分研究进一步扩展了数据集应用边界，将其与欧盟能源法规进行对比分析，为跨国能源政策协调研究提供了新颖的文本分析范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集