carolina-c4ai/corpus-carolina|语言学数据集|人工智能数据集
收藏数据集概述
数据集名称
- 名称:Corpus Carolina
- 别名:Carolina
数据集描述
- 摘要:Carolina是一个用于语言学和人工智能的开放语料库,包含1970至2021年间多种类型的当代巴西葡萄牙语文本。该语料库从网络提取文档,并包含关于其来源和类型的元数据。
- 语言:巴西葡萄牙语(1970-2021)
- 版本:1.2 (Ada)
数据集结构
-
文件存储:文件存储在
corpus
文件夹内,每个分类学有一个子文件夹。 -
文件格式:XML结构(TEI P5),每个文件包含多个提取的文档。
-
数据实例结构:
{ "meta": datasets.Value("string"), "text": datasets.Value("string") }
-
数据字段:
meta
:包含TEI符合的teiHeader
标签的XML字符串。text
:包含提取文档的字符串。
支持的任务
- 任务:填充掩码、文本生成
- 任务ID:掩码语言建模、语言建模
数据集大小
- 总大小:1B<n<10B
- 分类学统计:
代码 分类学 实例数 大小 总计 2107045 11 GB dat 数据集和其他语料库 1102049 4.4 GB wik 维基 960139 5.2 GB jud 司法分支 40464 1.5 GB leg 立法分支 13 25 MB soc 社交媒体 3413 17 MB uni 大学域名 941 10 MB pub 公共领域作品 26 4.5 MB
许可证信息
- 许可证:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
数据集版本
- 版本控制:Carolina语料库正在持续开发中,当前版本为v1.2,但v1.1也可用。可以使用
revision
参数加载不同版本的语料库。
数据集使用示例
python from datasets import load_dataset
加载所有分类学
corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina")
加载社交媒体文档
social_media = load_dataset("carolina-c4ai/corpus-carolina", taxonomy="soc")
加载先前版本
corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina", revision="v1.1")
数据集创建者
- 创建者:由虚拟数字人文实验室(LaViHD)和圣保罗大学人工智能中心(C4AI)的多学科团队开发,包括语言学家和计算机科学家。
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
校园防欺凌 AI语音预警
校园防欺凌 AI语音预警系统特点1、敏感词检测 可端侧进行分析,如区域内出现风险预示词语,如骂人、霸凌、呼救等词语,接直接触发预警到中心。2、分贝强声检测 实时采集并上传分贝值,不对语音音频进行采集,尊重学生的隐私权。另外,降低常规声音(如雷声、雨声、打鼾声等)的分贝值。3、异常声检测 可独立识别音频特性及类型通过对环境内不同声音进行分析比对,确定其声源类型,区分出有风险的声音(如砸玻璃声、人员尖叫、哭声等)并自动触发报警。4、内置语音播报可自定义语音文件,随时随地进行全局广播。语音合成芯片支持多种语音模式,例如文字转语音,真人声录制,特定音效定制等。
郑州数据交易中心 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
TCIA: The Cancer Imaging Archive
TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。
www.cancerimagingarchive.net 收录
Drone-type dataset
Drone-type数据集是由卡塔尔的Supreme Committee for Delivery and Legacy (SC)支持的研究团队创建,旨在为无人机检测和跟踪提供一个基准。该数据集包含7000张图像,涵盖了七种不同类型的无人机,图像来自YouTube视频,具有不同尺度和视野。数据集的创建过程包括从视频中提取图像并手动进行边界框标注。该数据集主要应用于无人机检测领域,旨在解决无人机类型识别的问题,提高检测系统的准确性和效率。
arXiv 收录