ual-topics

Hugging Face2024-08-16 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Yehor/ual-topics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自https://ua-lawyer.com项目的乌克兰语文本，这些文本是问题及其对应的法律类别标签。数据集用于文本分类任务，特别是多类别分类。数据集的特征包括文本和标签，标签是法律类别的分类。数据集的配置包括默认配置，数据文件分为训练集和测试集。评估指标包括准确率、F1分数、精确度和召回率，采用不同的平均方法（宏平均、微平均和加权平均）。

创建时间：

2024-08-16

原始信息汇总

UA-L Topics Corpus

概述

语言: 乌克兰语
许可: CC BY-NC-SA 4.0
数据规模: 1K<n<100K
数据来源: 原始数据
任务类别: 文本分类
任务ID: 主题分类

数据集信息

特征:
- text: 字符串类型
- label: 类别标签类型
  - 标签名称:
    - 0: inshe
    - 1: ekologiya
    - 2: ziemielnie_pravo
    - 3: reklama
    - 4: bankivska_diialnist
    - 5: prava_spozhivachiv
    - 6: medicina
    - 7: spadkove_pravo
    - 8: immighratsiia_iemighratsiia
    - 9: intieliektualna_vlasnist
    - 10: gospodarskie_pravo
    - 11: pidpriemnicka_dialnist
    - 12: opodatkuvannia
    - 13: piensiiata_sotsialni_viplati
    - 14: viiskovie_pravo
    - 15: sudova_praktika
    - 16: kriminalnie_pravo
    - 17: gromadianski_pravovidnosini
    - 18: strakhuvannya
    - 19: pratsevlashtuvvannya
    - 20: sotsialnyj_zakhist
    - 21: vighotovliennia_produktsiyi_ta_nadannia_poslugh
    - 22: litsienzuvannia
    - 23: reyestraciya_likvidaciya_bankrutstvo
    - 24: doghovirni_vidnosini
    - 25: administrativnie_pravo
    - 26: nierukhomist
    - 27: prava_vnutrishno_pieriemishchienikh_osib
    - 28: investitsii
    - 29: notarialni_pytanniia
    - 30: avtovlasnykam
    - 31: zhitlovi_pravovidnosini
    - 32: dovircha_vlastnist
    - 33: dierzhavni_zakupivli
    - 34: simejne_pravo
    - 35: mytne_pravo
    - 36: mizhnarodni_pravovidnosini
    - 37: korporativnie_pravo
    - 38: tsivilne_pravo

配置

默认配置:
- 数据文件:
  - 训练集: data/train.jsonl
  - 测试集: data/test.jsonl

训练评估指标

配置: 默认配置
任务: 文本分类
任务ID: 多类别分类
分割:
- 训练分割: 训练集
- 评估分割: 测试集
列映射:
- text: 文本
- label: 目标
评估指标:
- 准确率: Accuracy
- F1 宏平均: F1 macro
- F1 微平均: F1 micro
- F1 加权平均: F1 weighted
- 精确率宏平均: Precision macro
- 精确率微平均: Precision micro
- 精确率加权平均: Precision weighted
- 召回率宏平均: Recall macro
- 召回率微平均: Recall micro
- 召回率加权平均: Recall weighted

搜集汇总

数据集介绍

构建方式

UA-L Topics Corpus 数据集的构建基于乌克兰法律咨询网站 https://ua-lawyer.com 的文本内容。该数据集通过收集用户提出的法律问题及其对应的法律类别标签，形成了一个涵盖广泛法律领域的文本分类数据集。数据经过清洗和标注，确保每个文本片段与其对应的法律类别准确匹配，从而为法律文本分类任务提供了高质量的训练和测试数据。

特点

UA-L Topics Corpus 数据集的特点在于其涵盖了39个不同的法律类别，包括但不限于生态法、银行法、移民法、知识产权法等。每个类别都经过精心标注，确保了数据的高质量和多样性。数据集的文本内容均为乌克兰语，为乌克兰语自然语言处理任务提供了宝贵的资源。此外，数据集的规模适中，适合用于训练和评估文本分类模型。

使用方法

使用 UA-L Topics Corpus 数据集时，首先需要安装所需的依赖库，并激活虚拟环境。数据集以 JSONL 格式提供，包含训练集和测试集。用户可以通过加载这些文件，利用文本分类模型进行训练和评估。数据集支持多种评估指标，如准确率、F1 分数、精确率和召回率，用户可以根据具体需求选择合适的指标进行模型性能的评估。该数据集特别适合用于乌克兰语法律文本分类任务的研究和应用。

背景与挑战

背景概述

UA-L Topics Corpus数据集由乌克兰法律信息平台ua-lawyer.com创建，旨在为乌克兰语文本分类任务提供支持。该数据集涵盖了广泛的法律领域，包括但不限于知识产权、移民法、合同法等38个类别。通过收集和标注大量法律相关的问题文本，该数据集为自然语言处理领域的研究者提供了一个丰富的资源，特别是在多类别文本分类任务中。其创建时间不详，但基于其内容的多样性和专业性，可以推断其背后有专业的法律团队参与数据整理和标注工作。该数据集的出现，不仅推动了乌克兰语文本分类技术的发展，也为法律领域的自动化处理提供了新的可能性。

当前挑战

UA-L Topics Corpus数据集面临的主要挑战包括文本分类任务的复杂性和数据标注的准确性。首先，法律文本通常具有高度的专业性和复杂性，涉及多个子领域的交叉，这对模型的分类能力提出了较高的要求。其次，数据标注的准确性直接影响模型的性能，而法律文本的多样性和术语的复杂性使得标注过程容易产生误差。此外，乌克兰语作为一种资源相对较少的语言，其文本处理工具和预训练模型的缺乏也增加了数据集的构建难度。这些挑战不仅体现在模型的训练和评估过程中，也反映了在法律领域应用自然语言处理技术的普遍难题。

常用场景

经典使用场景

UA-L Topics Corpus数据集主要用于乌克兰语文本的主题分类任务，涵盖了从广告、银行活动到移民、知识产权等多个法律领域的文本。该数据集为研究人员提供了一个丰富的多类别分类基准，能够有效支持自然语言处理中的文本分类模型训练与评估。

实际应用

在实际应用中，UA-L Topics Corpus可用于开发法律咨询自动化系统，帮助用户快速分类和检索法律问题。此外，该数据集还可用于训练法律文本分析工具，辅助律师和法律研究人员高效处理大量法律文档，提升法律服务的智能化水平。

衍生相关工作

基于UA-L Topics Corpus，研究人员开发了多种文本分类模型，如基于深度学习的多标签分类器和基于预训练语言模型的迁移学习方法。这些工作不仅提升了乌克兰语法律文本分类的准确性，还为其他低资源语言的文本分类研究提供了技术借鉴。

以上内容由遇见数据集搜集并总结生成