lawgov_ir-ko

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/on-and-on/lawgov_ir-ko

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'on-and-on/lawgov_ir-ko'，专为信息检索（IR）评估而创建。数据集包含三个主要配置：'corpus'（语料库）、'queries'（查询）和'qrels'（查询相关文档评分），每个配置都有明确的特征和训练集划分。'corpus'包含3563个文本样本，每个样本有'_id'和'text'两个字段；'queries'同样包含3563个查询样本，结构类似于'corpus'；'qrels'则包含查询与语料库文档之间的相关性评分，字段包括'query-id'、'corpus-id'和'score'。数据集遵循韩国法律信息中心的许可政策，自2026年2月3日起采用开放许可。适用于信息检索系统的训练与评估任务。

This dataset, named "on-and-on/lawgov_ir-ko", is specially developed for information retrieval (IR) evaluation. It comprises three core configurations: 'corpus', 'queries', and 'qrels' (query relevance judgments), each with distinct features and training set splits. The 'corpus' includes 3563 text samples, each with two fields: '_id' and 'text'; the 'queries' also contain 3563 query samples with a structure consistent with that of the 'corpus'; the 'qrels' records the relevance scores between queries and corpus documents, with fields including 'query-id', 'corpus-id' and 'score'. The dataset adheres to the licensing policy of the Korean Legal Information Center and adopts an open license effective from February 3, 2026. It is applicable for the training and evaluation tasks of information retrieval systems.

创建时间：

2026-02-03

搜集汇总

数据集介绍

构建方式

在信息检索领域，评估模型的性能依赖于高质量的数据集。lawgov_ir-ko数据集基于韩国法律信息中心（Korea Law Information Center）的开放许可政策构建，确保了法律文本的权威性和合规性。该数据集通过结构化处理，将原始法律文档整理为语料库、查询和相关度评分三个独立配置，每个配置均包含唯一标识符和文本内容，形成了共计3563个样本的完整集合，为检索任务提供了坚实的基础。

使用方法

使用lawgov_ir-ko数据集时，研究人员可通过Hugging Face的datasets库便捷加载。具体操作包括分别加载corpus、queries和qrels三个配置，每个配置均以训练集形式提供。加载后，用户可根据需要将数据转换为字典格式，例如将语料库和查询映射为ID-文本对，或将相关度评分组织为嵌套字典结构。这种设计简化了数据预处理流程，使得数据集能够快速集成到信息检索系统中，用于模型训练、性能测试或基准比较。

背景与挑战

背景概述

在信息检索领域，法律文档的高效检索一直是研究的关键方向，尤其对于非英语语系的法律文本，其专业性和复杂性对检索系统提出了更高要求。LawGov_IR-KO数据集由on-and-on团队创建，遵循韩国法律信息中心的开放许可协议，专门针对韩语法律和政府文档设计，旨在评估信息检索模型在特定领域语言环境下的性能。该数据集包含语料库、查询和相关度标注，为研究韩语法律信息检索提供了标准化测试基准，推动了跨语言法律检索技术的发展，并促进了法律人工智能在韩语环境中的应用。

当前挑战

LawGov_IR-KO数据集致力于解决韩语法律文档信息检索的挑战，其核心问题在于处理法律文本的专业术语、复杂句法结构以及跨文档语义关联，这些因素使得传统检索模型难以准确匹配查询与相关文档。在构建过程中，挑战主要源于韩语法律数据的获取与标注，需确保数据遵循韩国法律信息中心的许可政策，同时处理大量非结构化文本，并建立高质量的相关度评估标准，这要求精细的领域知识整合和语言处理技术，以保障数据集的可靠性和实用性。

常用场景

经典使用场景

在法律与政府信息检索领域，lawgov_ir-ko数据集为韩语法律文本的检索任务提供了标准化的评估基准。该数据集通过精心构建的查询、文档语料库及相关性标注，支持检索模型在真实法律条文和政府文件场景下的性能测试。研究者可利用其评估模型在韩语法律术语理解、语义匹配及精准检索方面的能力，推动跨语言法律信息检索技术的发展。

解决学术问题

该数据集主要解决了法律信息检索中韩语文本处理与评估的学术挑战。由于法律文本具有高度专业性和结构性，传统检索模型难以准确捕捉其语义关联。lawgov_ir-ko通过提供高质量的相关性标注，为研究法律领域的语义检索、查询扩展及跨文档关联分析提供了可靠数据基础，促进了法律人工智能在语义理解与知识组织方面的进步。

实际应用

在实际应用中，lawgov_ir-ko数据集可支撑智能法律咨询系统、政府公文检索平台及法律教育工具的研发。基于该数据集训练的检索模型能够帮助律师、政府工作人员及公众快速定位相关法律条款和政策文件，提升法律服务的效率与准确性。同时，它为韩语法律信息系统的标准化评估提供了重要参考，助力法律科技产品的优化与部署。

数据集最近研究