five

empgces/dre-200M

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/empgces/dre-200M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从葡萄牙共和国日报中提取的文本,总大小为200MB。文本经过处理,确保每个条目不超过2048个令牌。数据收集截止到2024年5月31日。数据集支持多种NLP任务,如语言模型训练、文本分析、信息提取和文本摘要。文本语言为葡萄牙语(pt-PT)。数据集结构包含一个字段`text`,表示从葡萄牙共和国日报中提取的文本。数据集未预定义分割(如训练、验证、测试)。数据集由葡萄牙政府官方机构发布,由Smart Learning收集和处理,采用CC BY 4.0许可证。

该数据集包含从葡萄牙共和国日报中提取的文本,总大小为200MB。文本经过处理,确保每个条目不超过2048个令牌。数据收集截止到2024年5月31日。数据集支持多种NLP任务,如语言模型训练、文本分析、信息提取和文本摘要。文本语言为葡萄牙语(pt-PT)。数据集结构包含一个字段`text`,表示从葡萄牙共和国日报中提取的文本。数据集未预定义分割(如训练、验证、测试)。数据集由葡萄牙政府官方机构发布,由Smart Learning收集和处理,采用CC BY 4.0许可证。
提供机构:
empgces
原始信息汇总

数据集卡片:Diário da República Portuguesa 文本

数据集概述

该数据集包含从葡萄牙共和国日报(Diário da República Portuguesa)提取的文本,总大小为200MB。文本经过处理,确保每个条目不超过2048个token。数据收集截止到2024年5月31日。

支持的任务和排行榜

该数据集可用于多种自然语言处理(NLP)任务,包括但不限于:

  • 语言模型训练
  • 文本分析
  • 信息提取
  • 文本摘要

语言

数据集中的文本为葡萄牙语(pt-PT)。

数据集结构

数据字段

数据集包含以下字段:

  • text:从葡萄牙共和国日报提取的文本。

数据分割

数据集未划分为预定义的分割(例如,训练集、验证集、测试集)。

数据集创建

数据集选择理由

文本从葡萄牙共和国日报中提取,因其与葡萄牙法律和立法内容的关联性和全面性。

源数据

初始数据收集和规范化

文本直接从葡萄牙共和国日报的官方出版物中提取。提取过程确保每个文本最多有2048个token。

源语言生产者

文本的生产者是负责在葡萄牙共和国日报上发布的葡萄牙政府官方机构。

注释

注释过程

数据集中的文本没有额外的注释。

注释者

不适用。

附加信息

数据集策展人

该数据集由Smart Learning收集和处理。

许可信息

该数据集根据知识共享署名4.0国际(CC BY 4.0)许可进行授权。您可以自由分享和改编该材料用于任何目的,即使是商业用途,只要您提供适当的署名,链接到许可,并注明是否进行了更改。

更多详情请访问CC BY 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作