Luciano/lener_br_text_to_lm
收藏Hugging Face2022-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Luciano/lener_br_text_to_lm
下载链接
链接失效反馈官方服务:
资源简介:
LeNER-Br语言建模数据集是一个包含葡萄牙语法律文本的集合,这些文本来自LeNER-Br数据集。这些法律文本是从原始的Hugging Face LeNER-Br数据集中获取的,并经过处理,创建了一个包含训练和验证数据集(20%)的DatasetDict。该数据集允许对BERTimbau基础和大模型进行微调。数据集的结构包括训练集和测试集,分别包含8316和2079行数据。
提供机构:
Luciano
原始信息汇总
数据集概述
数据集名称
- 名称: LeNER-Br语言建模数据集
数据集描述
- 描述: 该数据集包含从LeNER-Br数据集(https://cic.unb.br/~teodecampos/LeNER-Br/)获取的葡萄牙语法律文本。这些文本来自原始的Hugging Face LeNER-Br数据集(https://huggingface.co/datasets/lener_br),并被处理以创建包含训练和验证数据(20%)的DatasetDict。
数据集用途
- 用途: 允许对BERTimbau基础和大型语言模型进行微调。
语言
- 语言: 葡萄牙语
数据集结构
- 结构: 包含训练和测试数据集
- 训练集: 8316行
- 测试集: 2079行
数据集大小
- 大小: 10K<n<100K
任务类别
- 任务:
- 掩码语言建模
- 语言建模



