five

softcatala/Softcatala-Web-Texts-Dataset

收藏
Hugging Face2023-06-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/softcatala/Softcatala-Web-Texts-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Softcatalà网站的文章和程序描述,数据格式为JSON,包含内容、日期、ID和标题等字段。数据集的语言为加泰罗尼亚语(Catalan),数据集的许可证为CC BY-SA 4.0或CC0 1.0。数据集的大小为100K到1M之间,具体包含623篇文章和330个程序描述。数据集的创建者为Softcatalà社区,数据集的用途主要是文本生成和语言建模。
提供机构:
softcatala
原始信息汇总

数据集概述

数据集名称

  • 名称: Softcatalà网站内容数据集
  • 别名: Softcatala-Web-Texts-Dataset

数据集描述

  • 摘要: 该数据集包含Softcatalà网站的内容,包括623篇文章和330个程序描述,总计423101字。
  • 语言: 加泰罗尼亚语 (ca)
  • 许可: 数据集使用Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)或Universal Public Domain Dedication (CC0 1.0)许可。

数据集结构

  • 数据实例: 数据集分为两个文件,articles.json包含文章,programes.json包含程序描述。
  • 数据字段: 数据以JSON格式存储,包含字段:内容、日期、ID和标题。

数据集创建

  • 源数据: 数据由Softcatalà社区生成。
  • 许可信息: 数据集的许可包括CC BY-SA 4.0CC0-1.0

数据集大小

  • 大小: 100K<n<1M

多语言性

  • 多语言性: 单语种

任务类别

  • 任务类别: 文本生成
  • 任务ID: 语言建模
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Softcatala-Web-Texts-Dataset是一个加泰罗尼亚语文本数据集,包含Softcatalà网站的953篇文章和程序描述,主题涵盖开源软件、本地化和技术。该数据集适用于文本生成和语言建模任务,采用CC BY-SA 4.0和CC0 1.0许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作