glossAPI/95k_deigma_ellinikis
收藏Hugging Face2026-02-24 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/glossAPI/95k_deigma_ellinikis
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- text-classification
language:
- el
pretty_name: Δείγμα Νεοελληνικών ποικιλιών
size_categories:
- 10K<n<100K
---
**Πληροφορίες για τα δεδομένα**
Στο data set περιέχονται 95K προτάσεις 3 ποικιλιών της ελληνικής γλώσσας (Καθαρεύουσα, Δημοτική, Κοινή Νέα Ελληνική). Η επισημείωση αυτών έγινε αυτόματα από το μοντέλο που εκπαίδευσε η ομάδα glossAPI (https://huggingface.co/glossAPI/Greek_Variety_Classifier) .
Για τη δημιουργία του αξιοποιήθηκαν οι πηγές: Europarl , GlobalVoices , HNC , CCMatrix, Wikipedia, Wikimatrix . Επίσης project Gutenberg , Δημώδης Γραμματεία, και Βίβλος που αποτελούν το μικρότερο ποσοστό του dataset.
**Dataset Statistics**
Total tokens: 2937264 , Size: 28.3Mb , Words Count: 2634441
**Δομή Dataset**
Το dataset είναι δομημένο όπως φαίνεται στον πίνακα που ακολουθεί:
| Στήλη | Περιγραφή |
| --- | --- |
| text | Το κείμενο |
| ποικιλία | Ποικιλία γλώσσας |
Για ανατροφοδότηση επικοινωνήστε: mourajoanna@eellak.gr , glossapi.team@eellak.gr
**Data info**
This dataset contains approximately 95k rows of 3 language varieties (Katharevousa, Demotic Greek, Modern Greek)
with automatic annotation by model (https://huggingface.co/glossAPI/Greek_Variety_Classifier ) .The resources used to build this dataset are: Europarl, GlobalVoices, HNC, CCMatrix, Wikipedia, Wikimatrix. Project Gutenberg, Greek Demotic Literature, and Bible also comprise a small percentage of the dataset.
**Dataset Statistics**
Total tokens: 2937264 , Size: 28.3Mb , Words Count: 2634441
**Dataset Structure**
The dataset is structured as shown in the table that follows:
| Column | Description |
| --- | --- |
| text | The text |
| ποικιλία | Language variety |
For feedback contact: mourajoanna@eellak.gr , glossapi.team@eellak.gr
提供机构:
glossAPI



