VishnuPJ/Malayalam_CultureX_IndicCorp_SMC|自然语言处理数据集|预训练数据集数据集

hugging_face2024-08-12 更新2024-06-15 收录

自然语言处理

预训练数据集

下载链接：

https://hf-mirror.com/datasets/VishnuPJ/Malayalam_CultureX_IndicCorp_SMC

下载链接

链接失效反馈

资源简介：

这是一个用于预训练和分词的马拉雅拉姆语数据集，数据来源于ai4bharat、CulturaX和Swathanthra Malayalam Computing等多个来源。数据集经过预处理，移除了非马拉雅拉姆语字符，合并了文本文件，并移除了字符数少于5的行。数据集包含train和test两个分割，分别有63110105和267251个样本，总大小为46864218447字节。

提供机构：

VishnuPJ

原始信息汇总

数据集概述

数据来源

ai4bharat: ai4bharat
CulturaX: CulturaX
Swathanthra Malayalam Computing: Swathanthra Malayalam Computing

预处理步骤

移除非马拉雅拉姆语字符 bash sed -i s/[^ം-ൿ.,;:@$%+&?!() ]//g test.txt
合并特定目录下的所有文本文件 bash find SMC -type f -name *.txt -exec cat {} ; >> combined_SMC.txt
移除少于5个字符的行 bash grep -P [x{0D00}-x{0D7F}] data/ml.txt | awk length($0) >= 5 > preprocessed/ml.txt

数据集信息

特征
- 名称: text
- 数据类型: string
分割
- 训练集
  - 字节数: 46611476142
  - 样本数: 63110105
- 测试集
  - 字节数: 252742305
  - 样本数: 267251
下载大小: 17881832073
数据集大小: 46864218447

配置

默认配置
- 训练集路径: data/train-*
- 测试集路径: data/test-*

AI搜集汇总

数据集介绍

构建方式

该数据集通过整合来自多个来源的预处理文本构建而成，包括ai4bharat、CulturaX以及Swathanthra Malayalam Computing。首先，通过正则表达式移除所有非马拉雅拉姆语字符，确保数据纯净。随后，合并特定目录下的所有文本文件，形成统一的数据集。最后，过滤掉字符数少于五行的文本，以提高数据质量。

特点

此数据集显著特点在于其广泛的语言覆盖和高质量的预处理。它不仅包含了丰富的马拉雅拉姆语文本，还通过严格的预处理步骤确保了数据的纯净性和可用性。此外，数据集的规模庞大，包含超过六千万条训练样本和二十多万条测试样本，为语言模型训练提供了充足的数据支持。

使用方法

该数据集适用于马拉雅拉姆语的预训练和分词任务。用户可以通过HuggingFace的datasets库轻松加载和使用该数据集，具体方法包括指定数据集名称和配置文件。数据集提供了训练和测试两个分割，用户可以根据需要选择合适的分割进行模型训练和评估。

背景与挑战

背景概述

马来语（Malayalam）作为印度南部喀拉拉邦的主要语言，拥有丰富的文化与历史背景。VishnuPJ/Malayalam_CultureX_IndicCorp_SMC数据集的创建旨在为马来语的自然语言处理（NLP）研究提供高质量的预训练和分词数据。该数据集汇集了来自多个来源的文本数据，包括ai4bharat、CulturaX和Swathanthra Malayalam Computing（SMC），这些数据经过精心预处理，去除了非马来语字符，并合并了多个文本文件。数据集的构建时间未明确提及，但其主要研究人员或机构可能包括印度的人工智能研究机构和语言技术实验室。该数据集的核心研究问题是如何有效利用大规模文本数据进行马来语的预训练和分词，从而提升NLP模型在该语言上的表现。这一研究对推动马来语在人工智能领域的应用具有重要意义。

当前挑战

VishnuPJ/Malayalam_CultureX_IndicCorp_SMC数据集在构建过程中面临多项挑战。首先，数据来源的多样性要求对不同格式的文本进行统一预处理，这包括去除非马来语字符和合并多个文本文件。其次，数据集的规模庞大，包含超过6300万条训练样本和26万条测试样本，这增加了数据处理的复杂性和计算资源的消耗。此外，确保数据的质量和一致性也是一个重要挑战，特别是在处理来自不同文化背景和语言习惯的文本时。最后，如何有效地利用这些数据进行预训练和分词，以提升NLP模型在马来语上的性能，是该数据集面临的核心研究问题。

常用场景

经典使用场景

在自然语言处理领域，VishnuPJ/Malayalam_CultureX_IndicCorp_SMC数据集被广泛用于马拉雅拉姆语的预训练和分词任务。该数据集通过整合来自ai4bharat、CulturaX和Swathanthra Malayalam Computing的文本资源，提供了丰富的马拉雅拉姆语文本数据，为模型训练提供了坚实的基础。其经典使用场景包括但不限于语言模型预训练、文本分类、命名实体识别等任务，为提升马拉雅拉姆语处理模型的性能提供了宝贵的资源。

实际应用

在实际应用中，VishnuPJ/Malayalam_CultureX_IndicCorp_SMC数据集被用于开发和优化马拉雅拉姆语的智能助手、机器翻译系统、语音识别和生成技术等。这些应用不仅提升了马拉雅拉姆语用户的信息获取和交流效率，也为马拉雅拉姆语社区的文化传播和技术普及提供了支持。通过这些实际应用，数据集在促进马拉雅拉姆语的数字化和智能化进程中发挥了重要作用。

衍生相关工作

基于VishnuPJ/Malayalam_CultureX_IndicCorp_SMC数据集，研究者们开展了多项相关工作，包括但不限于开发新的预训练语言模型、改进分词算法、以及探索低资源语言的迁移学习策略。这些工作不仅提升了马拉雅拉姆语处理技术的水平，也为其他低资源语言的处理提供了借鉴和参考。此外，该数据集还激发了跨语言研究的热潮，促进了不同语言处理技术之间的交流与合作。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录