five

sh4lu-z/awesome-dataset-sinhala

收藏
Hugging Face2026-02-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/sh4lu-z/awesome-dataset-sinhala
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: "Mixed Sinhala Corpus (1M+ Rows)" language: - si license: apache-2.0 size_categories: - 1M<n<10M task_categories: - text-generation - fill-mask tags: - sinhala - lanka - corpus - nlp - text-mining - ai-training dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 843362056 num_examples: 1079909 download_size: 344169037 dataset_size: 843362056 configs: - config_name: default data_files: - split: train path: data/train-* --- # Mixed Sinhala Dataset (1M+ Rows) | මිශ්‍ර සිංහල දත්ත කට්ටලය *(Please find the English description below the Sinhala description)* ## 🇬🇧 English This is a comprehensive dataset containing over one million rows of Sinhala text data. It is highly suitable for training Artificial Intelligence (AI) models and conducting Natural Language Processing (NLP) research. ### Dataset Details * **Language:** Sinhala (si) * **Total Rows:** 1,079,909 * **Format:** Parquet (Optimized for Hugging Face) * **Source:** Mixed text data (.txt) ### How to Use You can easily load this dataset using the datasets library with the following Python code: ```python from datasets import load_dataset dataset = load_dataset("sh4lu-z/awesome-dataset-sinhala") print(dataset['train'][0]) ``` ## 🇱🇰 සිංහල (Sinhala) මෙය සිංහල භාෂාවෙන් සමන්විත පේළි මිලියනයකට අධික දත්ත කට්ටලයකි (Dataset). මෙය AI මාදිලි (Models) පුහුණු කිරීම සහ ස්වභාවික භාෂා සැකසීමේ (NLP) පර්යේෂණ කටයුතු සඳහා ඉතා සුදුසු වේ. ### දත්ත කට්ටලයේ විස්තර (Dataset Details) * **භාෂාව (Language):** සිංහල (Sinhala) * **මුළු පේළි ගණන (Total Rows):** 1,079,909 * **දත්ත ආකෘතිය (Format):** Parquet (Hugging Face සඳහා ප්‍රශස්ත කර ඇත) * **මූලාශ්‍රය (Source):** මිශ්‍ර පෙළ දත්ත (Mixed text data - .txt) ### භාවිතා කරන ආකාරය (How to Use) ඔබට මෙම dataset එක `datasets` library එක භාවිතා කර පහත කේතය මගින් පහසුවෙන් load කරගත හැක: ```python from datasets import load_dataset dataset = load_dataset("sh4lu-z/awesome-dataset-sinhala") print(dataset['train'][0]) ```
提供机构:
sh4lu-z
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作