carolina-c4ai/corpus-carolina

Name: carolina-c4ai/corpus-carolina
Creator: carolina-c4ai
Published: 2025-06-11 11:45:38
License: 暂无描述

Hugging Face2025-06-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/carolina-c4ai/corpus-carolina

下载链接

链接失效反馈

官方服务：

资源简介：

Carolina是一个开放的语料库，主要用于语言学和人工智能研究，特别是针对当代巴西葡萄牙语（1970年至今）。该语料库包含从网络上提取的多种类型的文本，并附有来源和类型的元数据。数据集的结构包括多个分类（如社交媒体、大学领域等），并且可以通过不同的版本进行访问。数据集的文件以XML格式存储，每个文件包含多个提取的文档，文档的文本和元数据分别存储在text和meta字段中。数据集没有预定义的分割，使用时需要加载整个语料库。

提供机构：

carolina-c4ai

原始信息汇总

数据集概述

数据集名称

名称：Corpus Carolina
别名：Carolina

数据集描述

摘要：Carolina是一个用于语言学和人工智能的开放语料库，包含1970至2021年间多种类型的当代巴西葡萄牙语文本。该语料库从网络提取文档，并包含关于其来源和类型的元数据。
语言：巴西葡萄牙语（1970-2021）
版本：1.2 (Ada)

数据集结构

文件存储：文件存储在corpus文件夹内，每个分类学有一个子文件夹。
文件格式：XML结构（TEI P5），每个文件包含多个提取的文档。
数据实例结构：

{ "meta": datasets.Value("string"), "text": datasets.Value("string") }
数据字段：
- meta：包含TEI符合的teiHeader标签的XML字符串。
- text：包含提取文档的字符串。

支持的任务

任务：填充掩码、文本生成
任务ID：掩码语言建模、语言建模

数据集大小

总大小：1B<n<10B

分类学统计：

代码	分类学	实例数	大小
	总计	2107045	11 GB
dat	数据集和其他语料库	1102049	4.4 GB
wik	维基	960139	5.2 GB
jud	司法分支	40464	1.5 GB
leg	立法分支	13	25 MB
soc	社交媒体	3413	17 MB
uni	大学域名	941	10 MB
pub	公共领域作品	26	4.5 MB

许可证信息

许可证：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International

数据集版本

版本控制：Carolina语料库正在持续开发中，当前版本为v1.2，但v1.1也可用。可以使用revision参数加载不同版本的语料库。

数据集使用示例

python from datasets import load_dataset

加载所有分类学

corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina")

加载社交媒体文档

social_media = load_dataset("carolina-c4ai/corpus-carolina", taxonomy="soc")

加载先前版本

corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina", revision="v1.1")

数据集创建者

创建者：由虚拟数字人文实验室（LaViHD）和圣保罗大学人工智能中心（C4AI）的多学科团队开发，包括语言学家和计算机科学家。

5,000+

优质数据集

54 个

任务类型

进入经典数据集