five

carolina-c4ai/corpus-carolina|语言学数据集|人工智能数据集

收藏
hugging_face2025-06-11 更新2024-03-04 收录
语言学
人工智能
下载链接:
https://hf-mirror.com/datasets/carolina-c4ai/corpus-carolina
下载链接
链接失效反馈
资源简介:
Carolina是一个开放的语料库,主要用于语言学和人工智能研究,特别是针对当代巴西葡萄牙语(1970年至今)。该语料库包含从网络上提取的多种类型的文本,并附有来源和类型的元数据。数据集的结构包括多个分类(如社交媒体、大学领域等),并且可以通过不同的版本进行访问。数据集的文件以XML格式存储,每个文件包含多个提取的文档,文档的文本和元数据分别存储在text和meta字段中。数据集没有预定义的分割,使用时需要加载整个语料库。
提供机构:
carolina-c4ai
原始信息汇总

数据集概述

数据集名称

  • 名称:Corpus Carolina
  • 别名:Carolina

数据集描述

  • 摘要:Carolina是一个用于语言学和人工智能的开放语料库,包含1970至2021年间多种类型的当代巴西葡萄牙语文本。该语料库从网络提取文档,并包含关于其来源和类型的元数据。
  • 语言:巴西葡萄牙语(1970-2021)
  • 版本:1.2 (Ada)

数据集结构

  • 文件存储:文件存储在corpus文件夹内,每个分类学有一个子文件夹。

  • 文件格式:XML结构(TEI P5),每个文件包含多个提取的文档。

  • 数据实例结构

    { "meta": datasets.Value("string"), "text": datasets.Value("string") }

  • 数据字段

    • meta:包含TEI符合的teiHeader标签的XML字符串。
    • text:包含提取文档的字符串。

支持的任务

  • 任务:填充掩码、文本生成
  • 任务ID:掩码语言建模、语言建模

数据集大小

  • 总大小:1B<n<10B
  • 分类学统计
    代码 分类学 实例数 大小
    总计 2107045 11 GB
    dat 数据集和其他语料库 1102049 4.4 GB
    wik 维基 960139 5.2 GB
    jud 司法分支 40464 1.5 GB
    leg 立法分支 13 25 MB
    soc 社交媒体 3413 17 MB
    uni 大学域名 941 10 MB
    pub 公共领域作品 26 4.5 MB

许可证信息

  • 许可证:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International

数据集版本

  • 版本控制:Carolina语料库正在持续开发中,当前版本为v1.2,但v1.1也可用。可以使用revision参数加载不同版本的语料库。

数据集使用示例

python from datasets import load_dataset

加载所有分类学

corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina")

加载社交媒体文档

social_media = load_dataset("carolina-c4ai/corpus-carolina", taxonomy="soc")

加载先前版本

corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina", revision="v1.1")

数据集创建者

  • 创建者:由虚拟数字人文实验室(LaViHD)和圣保罗大学人工智能中心(C4AI)的多学科团队开发,包括语言学家和计算机科学家。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

校园防欺凌 AI语音预警

&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 校园防欺凌 AI语音预警系统特点1、敏感词检测 &nbsp; 可端侧进行分析,如区域内出现风险预示词语,如骂人、霸凌、呼救等词语,接直接触发预警到中心。2、分贝强声检测 &nbsp; &nbsp;实时采集并上传分贝值,不对语音音频进行采集,尊重学生的隐私权。另外,降低常规声音(如雷声、雨声、打鼾声等)的分贝值。3、异常声检测 &nbsp; &nbsp;可独立识别音频特性及类型通过对环境内不同声音进行分析比对,确定其声源类型,区分出有风险的声音(如砸玻璃声、人员尖叫、哭声等)并自动触发报警。4、内置语音播报可自定义语音文件,随时随地进行全局广播。语音合成芯片支持多种语音模式,例如文字转语音,真人声录制,特定音效定制等。

郑州数据交易中心 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

Drone-type dataset

Drone-type数据集是由卡塔尔的Supreme Committee for Delivery and Legacy (SC)支持的研究团队创建,旨在为无人机检测和跟踪提供一个基准。该数据集包含7000张图像,涵盖了七种不同类型的无人机,图像来自YouTube视频,具有不同尺度和视野。数据集的创建过程包括从视频中提取图像并手动进行边界框标注。该数据集主要应用于无人机检测领域,旨在解决无人机类型识别的问题,提高检测系统的准确性和效率。

arXiv 收录