sh4lu-z/awesome-dataset-sinhala
收藏Hugging Face2026-02-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/sh4lu-z/awesome-dataset-sinhala
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: "Mixed Sinhala Corpus (1M+ Rows)"
language:
- si
license: apache-2.0
size_categories:
- 1M<n<10M
task_categories:
- text-generation
- fill-mask
tags:
- sinhala
- lanka
- corpus
- nlp
- text-mining
- ai-training
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 843362056
num_examples: 1079909
download_size: 344169037
dataset_size: 843362056
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Mixed Sinhala Dataset (1M+ Rows) | මිශ්ර සිංහල දත්ත කට්ටලය
*(Please find the English description below the Sinhala description)*
## 🇬🇧 English
This is a comprehensive dataset containing over one million rows of Sinhala text data. It is highly suitable for training Artificial Intelligence (AI) models and conducting Natural Language Processing (NLP) research.
### Dataset Details
* **Language:** Sinhala (si)
* **Total Rows:** 1,079,909
* **Format:** Parquet (Optimized for Hugging Face)
* **Source:** Mixed text data (.txt)
### How to Use
You can easily load this dataset using the datasets library with the following Python code:
```python
from datasets import load_dataset
dataset = load_dataset("sh4lu-z/awesome-dataset-sinhala")
print(dataset['train'][0])
```
## 🇱🇰 සිංහල (Sinhala)
මෙය සිංහල භාෂාවෙන් සමන්විත පේළි මිලියනයකට අධික දත්ත කට්ටලයකි (Dataset). මෙය AI මාදිලි (Models) පුහුණු කිරීම සහ ස්වභාවික භාෂා සැකසීමේ (NLP) පර්යේෂණ කටයුතු සඳහා ඉතා සුදුසු වේ.
### දත්ත කට්ටලයේ විස්තර (Dataset Details)
* **භාෂාව (Language):** සිංහල (Sinhala)
* **මුළු පේළි ගණන (Total Rows):** 1,079,909
* **දත්ත ආකෘතිය (Format):** Parquet (Hugging Face සඳහා ප්රශස්ත කර ඇත)
* **මූලාශ්රය (Source):** මිශ්ර පෙළ දත්ත (Mixed text data - .txt)
### භාවිතා කරන ආකාරය (How to Use)
ඔබට මෙම dataset එක `datasets` library එක භාවිතා කර පහත කේතය මගින් පහසුවෙන් load කරගත හැක:
```python
from datasets import load_dataset
dataset = load_dataset("sh4lu-z/awesome-dataset-sinhala")
print(dataset['train'][0])
```
提供机构:
sh4lu-z



