Luciano/lener_br_text_to_lm

Name: Luciano/lener_br_text_to_lm
Creator: Luciano
Published: 2022-09-04 11:32:31
License: 暂无描述

Hugging Face2022-09-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Luciano/lener_br_text_to_lm

下载链接

链接失效反馈

官方服务：

资源简介：

LeNER-Br语言建模数据集是一个包含葡萄牙语法律文本的集合，这些文本来自LeNER-Br数据集。这些法律文本是从原始的Hugging Face LeNER-Br数据集中获取的，并经过处理，创建了一个包含训练和验证数据集（20%）的DatasetDict。该数据集允许对BERTimbau基础和大模型进行微调。数据集的结构包括训练集和测试集，分别包含8316和2079行数据。

提供机构：

Luciano

原始信息汇总

数据集概述

数据集名称

名称: LeNER-Br语言建模数据集

数据集描述

描述: 该数据集包含从LeNER-Br数据集（https://cic.unb.br/~teodecampos/LeNER-Br/）获取的葡萄牙语法律文本。这些文本来自原始的Hugging Face LeNER-Br数据集（https://huggingface.co/datasets/lener_br），并被处理以创建包含训练和验证数据（20%）的DatasetDict。

数据集用途

用途: 允许对BERTimbau基础和大型语言模型进行微调。

语言

语言: 葡萄牙语

数据集结构

结构: 包含训练和测试数据集
- 训练集: 8316行
- 测试集: 2079行

数据集大小

大小: 10K<n<100K

任务类别

任务:
- 掩码语言建模
- 语言建模

5,000+

优质数据集

54 个

任务类型

进入经典数据集