carolina-c4ai/corpus-carolina
收藏Hugging Face2025-06-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/carolina-c4ai/corpus-carolina
下载链接
链接失效反馈官方服务:
资源简介:
Carolina是一个开放的语料库,主要用于语言学和人工智能研究,特别是针对当代巴西葡萄牙语(1970年至今)。该语料库包含从网络上提取的多种类型的文本,并附有来源和类型的元数据。数据集的结构包括多个分类(如社交媒体、大学领域等),并且可以通过不同的版本进行访问。数据集的文件以XML格式存储,每个文件包含多个提取的文档,文档的文本和元数据分别存储在text和meta字段中。数据集没有预定义的分割,使用时需要加载整个语料库。
提供机构:
carolina-c4ai
原始信息汇总
数据集概述
数据集名称
- 名称:Corpus Carolina
- 别名:Carolina
数据集描述
- 摘要:Carolina是一个用于语言学和人工智能的开放语料库,包含1970至2021年间多种类型的当代巴西葡萄牙语文本。该语料库从网络提取文档,并包含关于其来源和类型的元数据。
- 语言:巴西葡萄牙语(1970-2021)
- 版本:1.2 (Ada)
数据集结构
-
文件存储:文件存储在
corpus文件夹内,每个分类学有一个子文件夹。 -
文件格式:XML结构(TEI P5),每个文件包含多个提取的文档。
-
数据实例结构:
{ "meta": datasets.Value("string"), "text": datasets.Value("string") }
-
数据字段:
meta:包含TEI符合的teiHeader标签的XML字符串。text:包含提取文档的字符串。
支持的任务
- 任务:填充掩码、文本生成
- 任务ID:掩码语言建模、语言建模
数据集大小
- 总大小:1B<n<10B
- 分类学统计:
代码 分类学 实例数 大小 总计 2107045 11 GB dat 数据集和其他语料库 1102049 4.4 GB wik 维基 960139 5.2 GB jud 司法分支 40464 1.5 GB leg 立法分支 13 25 MB soc 社交媒体 3413 17 MB uni 大学域名 941 10 MB pub 公共领域作品 26 4.5 MB
许可证信息
- 许可证:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
数据集版本
- 版本控制:Carolina语料库正在持续开发中,当前版本为v1.2,但v1.1也可用。可以使用
revision参数加载不同版本的语料库。
数据集使用示例
python from datasets import load_dataset
加载所有分类学
corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina")
加载社交媒体文档
social_media = load_dataset("carolina-c4ai/corpus-carolina", taxonomy="soc")
加载先前版本
corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina", revision="v1.1")
数据集创建者
- 创建者:由虚拟数字人文实验室(LaViHD)和圣保罗大学人工智能中心(C4AI)的多学科团队开发,包括语言学家和计算机科学家。



