softcatala/Softcatala-Web-Texts-Dataset
收藏Hugging Face2023-06-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/softcatala/Softcatala-Web-Texts-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Softcatalà网站的文章和程序描述,数据格式为JSON,包含内容、日期、ID和标题等字段。数据集的语言为加泰罗尼亚语(Catalan),数据集的许可证为CC BY-SA 4.0或CC0 1.0。数据集的大小为100K到1M之间,具体包含623篇文章和330个程序描述。数据集的创建者为Softcatalà社区,数据集的用途主要是文本生成和语言建模。
提供机构:
softcatala
原始信息汇总
数据集概述
数据集名称
- 名称: Softcatalà网站内容数据集
- 别名: Softcatala-Web-Texts-Dataset
数据集描述
- 摘要: 该数据集包含Softcatalà网站的内容,包括623篇文章和330个程序描述,总计423101字。
- 语言: 加泰罗尼亚语 (
ca) - 许可: 数据集使用Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)或Universal Public Domain Dedication (CC0 1.0)许可。
数据集结构
- 数据实例: 数据集分为两个文件,
articles.json包含文章,programes.json包含程序描述。 - 数据字段: 数据以JSON格式存储,包含字段:内容、日期、ID和标题。
数据集创建
- 源数据: 数据由Softcatalà社区生成。
- 许可信息: 数据集的许可包括CC BY-SA 4.0和CC0-1.0。
数据集大小
- 大小: 100K<n<1M
多语言性
- 多语言性: 单语种
任务类别
- 任务类别: 文本生成
- 任务ID: 语言建模
搜集汇总
数据集介绍

背景与挑战
背景概述
Softcatala-Web-Texts-Dataset是一个加泰罗尼亚语文本数据集,包含Softcatalà网站的953篇文章和程序描述,主题涵盖开源软件、本地化和技术。该数据集适用于文本生成和语言建模任务,采用CC BY-SA 4.0和CC0 1.0许可证。
以上内容由遇见数据集搜集并总结生成



