glossAPI/95k_deigma_ellinikis

Name: glossAPI/95k_deigma_ellinikis
Creator: glossAPI
Published: 2026-02-24 09:42:35
License: 暂无描述

Hugging Face2026-02-24 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/glossAPI/95k_deigma_ellinikis

下载链接

链接失效反馈

官方服务：

资源简介：

--- task_categories: - text-classification language: - el pretty_name: Δείγμα Νεοελληνικών ποικιλιών size_categories: - 10K<n<100K --- **Πληροφορίες για τα δεδομένα** Στο data set περιέχονται 95K προτάσεις 3 ποικιλιών της ελληνικής γλώσσας (Καθαρεύουσα, Δημοτική, Κοινή Νέα Ελληνική). Η επισημείωση αυτών έγινε αυτόματα από το μοντέλο που εκπαίδευσε η ομάδα glossAPI (https://huggingface.co/glossAPI/Greek_Variety_Classifier) . Για τη δημιουργία του αξιοποιήθηκαν οι πηγές: Europarl , GlobalVoices , HNC , CCMatrix, Wikipedia, Wikimatrix . Επίσης project Gutenberg , Δημώδης Γραμματεία, και Βίβλος που αποτελούν το μικρότερο ποσοστό του dataset. **Dataset Statistics** Total tokens: 2937264 , Size: 28.3Mb , Words Count: 2634441 **Δομή Dataset** Το dataset είναι δομημένο όπως φαίνεται στον πίνακα που ακολουθεί: | Στήλη | Περιγραφή | | --- | --- | | text | Το κείμενο | | ποικιλία | Ποικιλία γλώσσας | Για ανατροφοδότηση επικοινωνήστε: mourajoanna@eellak.gr , glossapi.team@eellak.gr **Data info** This dataset contains approximately 95k rows of 3 language varieties (Katharevousa, Demotic Greek, Modern Greek) with automatic annotation by model (https://huggingface.co/glossAPI/Greek_Variety_Classifier ) .The resources used to build this dataset are: Europarl, GlobalVoices, HNC, CCMatrix, Wikipedia, Wikimatrix. Project Gutenberg, Greek Demotic Literature, and Bible also comprise a small percentage of the dataset. **Dataset Statistics** Total tokens: 2937264 , Size: 28.3Mb , Words Count: 2634441 **Dataset Structure** The dataset is structured as shown in the table that follows: | Column | Description | | --- | --- | | text | The text | | ποικιλία | Language variety | For feedback contact: mourajoanna@eellak.gr , glossapi.team@eellak.gr

提供机构：

glossAPI

5,000+

优质数据集

54 个

任务类型

进入经典数据集