five

epdk_elektrik_piyasasi_mevzuat

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/ogulcanakca/epdk_elektrik_piyasasi_mevzuat
下载链接
链接失效反馈
官方服务:
资源简介:
土耳其能源市场立法数据集包含从大约3300份与土耳其能源市场监管机构(EPDK)和土耳其电力市场立法相关的文档中提取的清洁文本。该数据集用于促进大型语言模型在土耳其能源监管领域的域自适应。
创建时间:
2025-04-23
原始信息汇总

EPDK Electricity Market Legislation Dataset 概述

数据集基本信息

  • 名称: EPDK Electricity Market Legislation Dataset
  • 语言: 土耳其语 (tr)
  • 许可证: Apache-2.0
  • 大小类别: 1K<n<10K
  • 下载大小: 70,357,154 bytes
  • 数据集大小: 142,398,992 bytes
  • 数据格式: JSON Lines (.jsonl)

数据集内容

  • 数据来源: 土耳其能源市场监管机构 (EPDK) 相关文档
  • 文档类型: PDF, DOCX, DOC, XLSX (包含需OCR处理的扫描文档)
  • 处理状态: 已清理但未分块的文本
  • 条目数量: 3,424 个
  • 字段:
    • source_file: 源文件路径
    • extracted_text: 提取的文本内容

主要用途

  • 主要任务: 语言建模 (领域适应)
  • 潜在下游任务:
    • EPDK法规问答系统
    • 法律/法规文档摘要
    • 文本分类 (如文档类型识别)

技术特征

  • 特征类型: 文本
  • 数据分割: 仅包含训练集 (train)
  • 配置名称: default

引用信息

json @dataset{ogulcanakca_epdk_mevzuat, author = {ogulcanakca}, title = {EPDK Electricity Market Legislation Dataset}, year = {2025}, url = "https://huggingface.co/datasets/ogulcanakca/epdk_elektrik_piyasasi_mevzuat" }

联系方式

  • 联系人: akca_ogulcan@hotmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于土耳其能源市场监管领域,通过系统化采集EPDK(土耳其能源市场监管机构)约3300份法规文档构建而成。原始文档涵盖PDF、DOCX等多种格式,包含需经OCR技术处理的扫描文件。构建过程中采用文本提取与清洗技术,保留原始文档语义结构的同时去除格式噪音,最终形成以JSON Lines格式存储的标准化语料库,每条记录对应一份处理后的法规文档。
特点
作为土耳其能源法规领域的专业语料库,该数据集具有鲜明的领域特异性与语言单一性。全部文本均为土耳其语,内容涵盖电力市场计量规则、监管条例等专业法律文本,包含大量术语与正式法律表述。数据未经分块处理,完整保留原始文档的篇章结构,为语言模型提供丰富的上下文信息。其3424个文档实例构成中等规模语料,特别适合领域自适应预训练任务。
使用方法
该数据集主要服务于法律领域的自然语言处理研究,推荐以领域自适应预训练为核心应用场景。研究人员可通过持续预训练或微调方式,使通用语言模型掌握土耳其能源法规的专业知识。使用时应加载JSON Lines格式数据,重点关注extracted_text字段的文本内容。典型应用包括构建法规问答系统、文档自动摘要等下游任务,使用时需注意土耳其语特有的形态学特征与法律文本的句式复杂性。
背景与挑战
背景概述
EPDK电力市场法规数据集由研究者ogulcanakca于2025年构建,旨在解决土耳其能源监管领域专业文本的语言模型适应问题。该数据集收录了土耳其能源市场监管局(EPDK)发布的约3300份电力市场法规文档,涵盖PDF、DOCX等多种格式,部分扫描文档经过光学字符识别处理。作为首个专注于土耳其能源法规领域的文本语料库,该数据集为法律文本挖掘、领域自适应预训练等研究提供了重要资源,推动了土耳其语专业领域自然语言处理技术的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,土耳其能源法规文本包含大量专业术语和复杂法律句式,对语言模型的领域适应能力提出极高要求;同时法规条款间的关联性分析需要深度语义理解。在构建过程层面,原始文档格式异构性强,扫描件存在OCR识别错误风险,且土耳其语特有的形态学特征增加了文本清洗难度。此外,法律文本的时效性要求数据集必须持续更新以反映法规修订动态。
常用场景
经典使用场景
在能源市场监管领域,EPDK电力市场法规数据集为研究者提供了丰富的土耳其语法律文本资源。该数据集最经典的使用场景是作为领域自适应语言模型的训练素材,通过持续预训练或微调因果语言模型,使其能够准确理解和生成与土耳其能源法规相关的专业文本。研究人员可利用这些结构化数据开展法律文本分析、信息抽取等任务,为能源政策研究奠定数据基础。
解决学术问题
该数据集有效解决了能源法律文本处理中的领域适应难题。传统语言模型在专业法规文本上表现欠佳,而此数据集通过提供3,300余份经过清洗的土耳其能源法规文档,填补了非英语法律文本资源的空白。其意义在于支持细粒度的法律语义理解研究,推动跨语言法律人工智能的发展,并为土耳其能源政策量化分析提供可计算文本素材。
衍生相关工作
该数据集催生了多个能源法律AI研究方向。基于此开展的经典工作包括土耳其语法律BERT的领域适应研究、能源法规多标签分类系统开发等。部分研究进一步扩展了数据集应用边界,将其与欧盟能源法规进行对比分析,为跨国能源政策协调研究提供了新颖的文本分析范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作