five

empgces/dre-60M

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/empgces/dre-60M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从葡萄牙共和国日报(Diário da República Portuguesa)提取的文本,总大小为60MB,每条文本不超过2048个标记。数据集支持多种自然语言处理任务,如语言模型训练、文本分析、信息提取和文本摘要。文本语言为葡萄牙语(pt-PT)。数据集未预定义分割,且没有额外的注释。数据集由Smart Learning收集和处理,采用CC BY 4.0许可。

This dataset contains texts extracted from the Diário da República Portuguesa, with a total size of 60MB. The texts have been processed to ensure that each entry does not exceed a maximum of 2048 tokens. The dataset can be used for various NLP tasks, including language model training, text analysis, information extraction, and text summarization. The texts are in Portuguese (pt-PT). The dataset is not divided into predefined splits and contains no additional annotations. The dataset was collected and processed by Smart Learning and is licensed under CC BY 4.0.
提供机构:
empgces
原始信息汇总

数据集卡片:Diário da República Portuguesa 文本

数据集概述

该数据集包含从葡萄牙共和国日报(Diário da República Portuguesa)中提取的文本,总大小为60MB。每个条目的文本长度不超过2048个token。数据收集截止至2024年5月31日。

支持的任务和排行榜

该数据集可用于多种自然语言处理(NLP)任务,包括但不限于:

  • 语言模型训练
  • 文本分析
  • 信息提取
  • 文本摘要

语言

数据集中的文本为葡萄牙语(pt-PT)。

数据集结构

数据字段

数据集包含以下字段:

  • text:从葡萄牙共和国日报中提取的文本。

数据分割

数据集未预定义分割(如训练集、验证集、测试集)。

数据集创建

数据集选择理由

文本从葡萄牙共和国日报中提取,因其与葡萄牙法律和立法内容的关联性和全面性。

源数据

初始数据收集和规范化

文本直接从葡萄牙共和国日报的官方出版物中提取。提取过程确保每个文本的最大token数为2048。

源语言生产者

文本的生产者为葡萄牙政府负责在葡萄牙共和国日报上发布的官方机构。

注释

注释过程

数据集中的文本没有额外的注释。

注释者

不适用。

附加信息

数据集管理者

该数据集由Smart Learning收集和处理。

许可信息

该数据集根据知识共享署名4.0国际(CC BY 4.0)许可进行授权。您可以自由分享和改编材料,用于任何目的,包括商业用途,只要您提供适当的署名,链接到许可,并注明是否进行了更改。

更多详情请访问CC BY 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作