VishnuPJ/Malayalam_CultureX_IndicCorp_SMC|自然语言处理数据集|预训练数据集数据集
收藏数据集概述
数据来源
- ai4bharat: ai4bharat
- CulturaX: CulturaX
- Swathanthra Malayalam Computing: Swathanthra Malayalam Computing
预处理步骤
-
移除非马拉雅拉姆语字符 bash sed -i s/[^ം-ൿ.,;:@$%+&?!() ]//g test.txt
-
合并特定目录下的所有文本文件 bash find SMC -type f -name *.txt -exec cat {} ; >> combined_SMC.txt
-
移除少于5个字符的行 bash grep -P [x{0D00}-x{0D7F}] data/ml.txt | awk length($0) >= 5 > preprocessed/ml.txt
数据集信息
-
特征
- 名称: text
- 数据类型: string
-
分割
- 训练集
- 字节数: 46611476142
- 样本数: 63110105
- 测试集
- 字节数: 252742305
- 样本数: 267251
- 训练集
-
下载大小: 17881832073
-
数据集大小: 46864218447
配置
- 默认配置
- 训练集路径: data/train-*
- 测试集路径: data/test-*

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
ReferCOCO数据集
ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
