projecte-aina/CATalog
收藏Hugging Face2025-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CATalog
下载链接
链接失效反馈官方服务:
资源简介:
CATalog是一个多样化的开源加泰罗尼亚语语料库,用于语言建模。它包含来自26个不同来源的文本文档,包括网络爬取、新闻、论坛、数字图书馆和公共机构,总计174.5亿字。数据集支持的任务包括填充掩码、文本生成和语言建模。数据集的结构为JSONL格式,每个文档包含文档标识符、文本、质量评分、评估策略、语言和URL(如果可用)。数据集的创建基于过滤后的CommonCrawl快照和手动选择的特定来源语料库,使用CURATE管道进行去重、语言识别和评分启发式处理。数据集的主要目标是提供大规模、灵活且中立的评分语料库,以支持多语言模型的训练。
CATalog is a diverse open-source Catalan language corpus for language modeling. It contains text documents from 26 distinct sources, including web crawls, news, forums, digital libraries, and public institutions, totaling 17.45 billion words. The dataset supports tasks including masked language modeling, text generation, and general language modeling. It follows the JSONL format, where each document includes a document identifier, text content, quality score, evaluation strategy, language, and URL (if available). The dataset is constructed using filtered CommonCrawl snapshots and manually selected specialized source corpora, processed via the CURATE pipeline for deduplication, language identification, and scoring heuristics. The primary goal of this dataset is to provide a large-scale, flexible, neutrally scored corpus to support the training of multilingual language models.
提供机构:
projecte-aina
原始信息汇总
数据集概述
基本信息
- 名称: CATalog
- 语言: 加泰罗尼亚语 (ca)
- 许可证: Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International
- 多语言性: 单语
- 大小: 10B<n<100B
数据集结构
- 格式: JSONL
- 字段:
id: 文档标识符text: 文档文本score: 文档质量评分strategy: 评估文档质量的策略languages: 文档语言url: 文档URL(如有)
- 分割:
train: 34314510个示例,总大小115827685843字节
任务和支持
- 任务类别:
- 填充掩码
- 文本生成
- 任务ID:
- 掩码语言建模
- 槽填充
- 语言建模
数据集创建
- 来源数据:
- 主要来自CommonCrawl的过滤和非重叠版本,以及一些手动选择的特定来源的语料库。
- 使用CURATE管道进行数据处理,包括精确去重、语言识别和评分启发式。
注意事项
- 数据集部分构建自Common Crawl,可能包含个人和敏感信息,使用前需谨慎考虑。
- 数据集主要关注中央加泰罗尼亚语,但也包括瓦伦西亚语和巴利阿里加泰罗尼亚语,以及来自Racó Català Fòrums等平台的多样社会语言,以创建更代表性的数据集。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



