five

glossAPI/95k_deigma_ellinikis

收藏
Hugging Face2026-02-24 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/glossAPI/95k_deigma_ellinikis
下载链接
链接失效反馈
官方服务:
资源简介:
--- task_categories: - text-classification language: - el pretty_name: Δείγμα Νεοελληνικών ποικιλιών size_categories: - 10K<n<100K --- **Πληροφορίες για τα δεδομένα** Στο data set περιέχονται 95K προτάσεις 3 ποικιλιών της ελληνικής γλώσσας (Καθαρεύουσα, Δημοτική, Κοινή Νέα Ελληνική). Η επισημείωση αυτών έγινε αυτόματα από το μοντέλο που εκπαίδευσε η ομάδα glossAPI (https://huggingface.co/glossAPI/Greek_Variety_Classifier) . Για τη δημιουργία του αξιοποιήθηκαν οι πηγές: Europarl , GlobalVoices , HNC , CCMatrix, Wikipedia, Wikimatrix . Επίσης project Gutenberg , Δημώδης Γραμματεία, και Βίβλος που αποτελούν το μικρότερο ποσοστό του dataset. **Dataset Statistics** Total tokens: 2937264 , Size: 28.3Mb , Words Count: 2634441 **Δομή Dataset** Το dataset είναι δομημένο όπως φαίνεται στον πίνακα που ακολουθεί: | Στήλη | Περιγραφή | | --- | --- | | text | Το κείμενο | | ποικιλία | Ποικιλία γλώσσας | Για ανατροφοδότηση επικοινωνήστε: mourajoanna@eellak.gr , glossapi.team@eellak.gr **Data info** This dataset contains approximately 95k rows of 3 language varieties (Katharevousa, Demotic Greek, Modern Greek) with automatic annotation by model (https://huggingface.co/glossAPI/Greek_Variety_Classifier ) .The resources used to build this dataset are: Europarl, GlobalVoices, HNC, CCMatrix, Wikipedia, Wikimatrix. Project Gutenberg, Greek Demotic Literature, and Bible also comprise a small percentage of the dataset. **Dataset Statistics** Total tokens: 2937264 , Size: 28.3Mb , Words Count: 2634441 **Dataset Structure** The dataset is structured as shown in the table that follows: | Column | Description | | --- | --- | | text | The text | | ποικιλία | Language variety | For feedback contact: mourajoanna@eellak.gr , glossapi.team@eellak.gr
提供机构:
glossAPI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作