sh4lu-z/awesome-dataset-sinhala

Name: sh4lu-z/awesome-dataset-sinhala
Creator: sh4lu-z
Published: 2026-02-25 06:45:54
License: 暂无描述

Hugging Face2026-02-25 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/sh4lu-z/awesome-dataset-sinhala

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: "Mixed Sinhala Corpus (1M+ Rows)" language: - si license: apache-2.0 size_categories: - 1M<n<10M task_categories: - text-generation - fill-mask tags: - sinhala - lanka - corpus - nlp - text-mining - ai-training dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 843362056 num_examples: 1079909 download_size: 344169037 dataset_size: 843362056 configs: - config_name: default data_files: - split: train path: data/train-* --- # Mixed Sinhala Dataset (1M+ Rows) | මිශ්‍ර සිංහල දත්ත කට්ටලය *(Please find the English description below the Sinhala description)* ## 🇬🇧 English This is a comprehensive dataset containing over one million rows of Sinhala text data. It is highly suitable for training Artificial Intelligence (AI) models and conducting Natural Language Processing (NLP) research. ### Dataset Details * **Language:** Sinhala (si) * **Total Rows:** 1,079,909 * **Format:** Parquet (Optimized for Hugging Face) * **Source:** Mixed text data (.txt) ### How to Use You can easily load this dataset using the datasets library with the following Python code: ```python from datasets import load_dataset dataset = load_dataset("sh4lu-z/awesome-dataset-sinhala") print(dataset['train'][0]) ``` ## 🇱🇰 සිංහල (Sinhala) මෙය සිංහල භාෂාවෙන් සමන්විත පේළි මිලියනයකට අධික දත්ත කට්ටලයකි (Dataset). මෙය AI මාදිලි (Models) පුහුණු කිරීම සහ ස්වභාවික භාෂා සැකසීමේ (NLP) පර්යේෂණ කටයුතු සඳහා ඉතා සුදුසු වේ. ### දත්ත කට්ටලයේ විස්තර (Dataset Details) * **භාෂාව (Language):** සිංහල (Sinhala) * **මුළු පේළි ගණන (Total Rows):** 1,079,909 * **දත්ත ආකෘතිය (Format):** Parquet (Hugging Face සඳහා ප්‍රශස්ත කර ඇත) * **මූලාශ්‍රය (Source):** මිශ්‍ර පෙළ දත්ත (Mixed text data - .txt) ### භාවිතා කරන ආකාරය (How to Use) ඔබට මෙම dataset එක `datasets` library එක භාවිතා කර පහත කේතය මගින් පහසුවෙන් load කරගත හැක: ```python from datasets import load_dataset dataset = load_dataset("sh4lu-z/awesome-dataset-sinhala") print(dataset['train'][0]) ```

提供机构：

sh4lu-z

5,000+

优质数据集

54 个

任务类型

进入经典数据集