oliverkinch/eur-lex-bt
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/oliverkinch/eur-lex-bt
下载链接
链接失效反馈官方服务:
资源简介:
EUR-Lex回译丹麦语数据集(10k)是一个用于丹麦法律写作的指令式回译数据集。该数据集基于oliverkinch/eur-lex(仅丹麦语部分)构建,筛选条件为text_source_da == html。数据格式包括prompt(丹麦用户指令)和target(丹麦法律文本),并来自4个不重叠的构建切片。数据集总共有10,210行,包含id、prompt、target、sources和meta等列。
EUR-Lex Backtranslation Danish (10k) is an instruction-style backtranslation dataset for Danish legal writing. Built from oliverkinch/eur-lex (Danish fields only) with the source filter text_source_da == html. The row format includes prompt (Danish user instruction) and target (Danish legal text), combined from 4 non-overlapping build slices. The dataset contains a total of 10,210 rows with columns: id, prompt, target, sources, and meta.
提供机构:
oliverkinch
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,指令微调数据的匮乏长期制约着丹麦语法律文本生成模型的发展。EUR-Lex Backtranslation Danish数据集应运而生,其构建基于oliverkinch/eur-lex数据集,仅提取丹麦语字段,并通过严格的文本来源过滤,仅保留text_source_da为html的条目。随后,采用回译(backtranslation)技术,将原始法律文本转化为丹麦语用户指令与法律文本对应的指令格式,形成prompt和target两列结构。整个数据集由四个互不重叠的构建片段组合而成,确保了数据的多样性与完整性。
特点
该数据集最大的特色在于其针对丹麦语法律文本的指令风格设计,将复杂的法律条文转化为清晰的用户指令与目标文本对,极大促进了模型对法律语言的理解与生成。数据集规模为10,210条,属于中小型高质量数据集,兼顾了训练效率与领域覆盖度。每一条数据均包含唯一标识符、指令提示、目标文本、来源信息及元数据,结构化程度高,便于研究者进行细粒度分析与定制化过滤。
使用方法
该数据集专为丹麦语文本生成任务设计,尤其适用于法律领域的指令微调(instruction tuning)。使用时,可直接加载prompt列作为模型输入,target列作为监督信号,训练序列到序列模型。建议配合丹麦语预训练语言模型,如ScandiBERT或GPT-SW3,进行有监督微调。数据集的元数据字段支持按来源或构建片段进一步筛选,便于实验设计与子集划分。典型应用场景包括丹麦法律文档摘要、条款解释生成及法律问答系统开发。
背景与挑战
背景概述
EUR-Lex Backtranslation Danish(eur-lex-bt)数据集诞生于自然语言处理与法律文本挖掘的交叉前沿,旨在为丹麦语法律领域构建高质量的指令微调数据资源。该数据集由研究人员基于oliverkinch/eur-lex语料库中丹麦语字段构建,通过回译技术生成指令风格数据,其创建时间可追溯至2023年左右。核心研究问题在于如何利用有限的丹麦语法律文本,通过回译方法生成大规模、多样化的指令数据,以提升大语言模型在丹麦法律场景下的文本生成与理解能力。作为丹麦语法律NLP领域的早期指令数据集,eur-lex-bt为低资源语言的法律人工智能研究提供了关键基准,推动了跨语言法律信息处理的发展。
当前挑战
该数据集所解决的领域挑战主要集中于丹麦语法律文本的稀缺性与指令数据构建的复杂性。在丹麦法律场景中,现有标注数据极为匮乏,大语言模型难以直接学习到专业、规范的法律写作模式。构建过程中面临的核心挑战包括:如何从有限源语料中提取高质量的丹麦语法律文本,并设计有效的回译策略以生成自然、准确的指令对;同时需确保生成数据不引入语义偏差或法律术语失真。此外,数据集的规模仅约1万条,在覆盖法律领域多样性与避免过拟合方面仍存局限,未来需进一步扩展语料来源与精炼回译流程。
常用场景
经典使用场景
在法律自然语言处理领域,eur-lex-bt数据集因其独特的丹麦语法律文本与指令配对结构,常被用于训练和评估丹麦语法律文本生成模型。研究者通过该数据集构建指令微调任务,使模型学习如何根据用户提出的法律相关问题或指令,生成符合丹麦法律体系语境的连贯文本。其经典应用之一是基于法律条文摘要、条款解释或合规性说明等场景的文本生成,为丹麦语法律人工智能助手奠定数据基础。
实际应用
在实际应用中,eur-lex-bt数据集可支撑丹麦法律科技产品的开发,例如智能法律咨询系统、法律文档自动起草工具以及法规条款快速检索与摘要服务。律师或法务人员借助基于该数据集微调的模型,能够高效生成法律意见书初稿、合同条款说明或判决要点归纳。此外,该数据集还可赋能政府部门的法律信息服务平台,通过对话式交互为用户提供丹麦语法规解读,降低法律服务的门槛。
衍生相关工作
该数据集衍生了一系列相关研究工作,包括但不限于基于回译策略的多语言法律数据集扩展方法、丹麦语法律领域的预训练语言模型微调基准,以及融合结构信息的法律文本生成模型。后续工作通过引入篇章级上下文或法律知识图谱,进一步提升了生成文本的领域准确性与逻辑严谨性。此外,该数据集也常作为跨语言法律NLP的评估基准,用于验证模型在低资源语言迁移学习中的表现,推动了丹麦语法律人工智能的持续演进。
以上内容由遇见数据集搜集并总结生成



