five

YigitCahit/temiz-OSCAR

收藏
Hugging Face2026-03-26 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/YigitCahit/temiz-OSCAR
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - Duygu Altinok language: - tr license: - cc-by-sa-4.0 multilinguality: - monolingual source_datasets: - oscar-corpus/oscar - oscar-corpus/OSCAR-2109 - oscar-corpus/OSCAR-2201 - oscar-corpus/OSCAR-2301 pretty_name: temiz-OSCAR config_names: - oscar-2019 - oscar-2109 - oscar-2201 - oscar-2301 dataset_info: - config_name: oscar-2019 features: - name: text dtype: string splits: - name: train num_bytes: 2817356 num_examples: 3671430 - config_name: oscar-2109 features: - name: text dtype: string splits: - name: train num_bytes: 2817356 num_examples: 8472809 - config_name: oscar-2201 features: - name: text dtype: string splits: - name: train num_bytes: 2817356 num_examples: 5193341 - config_name: oscar-2301 features: - name: text dtype: string splits: - name: train num_bytes: 2817356 num_examples: 6402187 configs: - config_name: oscar-2019 data_files: - split: train path: data/train/oscar2019.jsonl - config_name: oscar-2109 data_files: - split: train path: data/train/oscar2109.jsonl - config_name: oscar-2201 data_files: - split: train path: data/train/oscar2201.jsonl - config_name: oscar-2301 data_files: - split: train path: data/train/oscar2301.jsonl task_categories: - fill-mask - text-generation tags: - oscar size_categories: - 10M<n<100M --- <img src="https://raw.githubusercontent.com/turkish-nlp-suite/.github/main/profile/temiz-oscar.png" width="30%" height="30%"> # Dataset Card for Temiz OSCAR Temiz OSCAR is a corpora collection consisting of cleaned versions of original OSCAR corpora. This collection is made up of four datasets: [OSCAR-2019](https://huggingface.co/datasets/oscar-corpus/oscar), [OSCAR-2109](https://huggingface.co/datasets/oscar-corpus/OSCAR-2109), [OSCAR-2201](https://huggingface.co/datasets/oscar-corpus/OSCAR-2201) and [OSCAR-2301](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) This corpus is a part of large scale Turkish corpus [Bella Turca](https://huggingface.co/datasets/turkish-nlp-suite/BellaTurca). For more details about Bella Turca, please refer to [the publication](https://link.springer.com/chapter/10.1007/978-3-031-70563-2_16). | Dataset | num instances | size | num of words| |---|---|---|---| | OSCAR-2019 | 3.671.430 | 7.7G | 976M | | OSCAR-2109 | 8.472.809 | 18G | 2.22B| | OSCAR-2201 | 5.193.341 | 14GB | 1.75B | | OSCAR-2301 | 6.402.187 | 18GB |2.19B | | **Total** | 23.739.767 | 57GB | 7.15B | This collection includes web text, crawled from internet by OSCAR project. We cleaned the corpus by quite many criterion such as text length, character to digit ratio; as well as filtered for too much profanity, adult content and more. For all the details please visit the publication. ### Instances A typical instance from the dataset looks like: ``` { "text": Türkiyenin önde gelen ilaç şirketlerinden Nobel İlaç, enfeksiyonlardan korunma yolları içerikli eğitim programı ile, \ Junior Chamber International (JCI) tarafından 2016 Uluslararası Kurumsal Sosyal Sorumluluk ödülüne layık görüldü. Yarım asrı aşkın süredir insan sağlığının korunması ve iyileştirilmesi alanında çalışan Türkiyenin önde gelen ilaç firmalarından, %100 Türk \ sermayeli Nobel İlaç, kurumsal sosyal sorumluluk alanındaki kararlılığını bu proje ile bir kez daha gösterdi. Sağlıklı yaşam \ bilincinin erken yaşlarda eğitim yoluyla geliştirilmesi gerektiğine inanan Nobel İlaç ve gönüllü çalışanları, 7 farklı oturumda \ ilkokul çağındaki 120 çocuğa ulaşarak enfeksiyonlardan korunma yolları içerikli eğitimler verdiler. 114 ülkede 169.000 üyesi \ bulunan, toplumlarda pozitif değişime ve gelişime katkıda bulunmak için gençlerin liderlik, girişimcilik becerilerini ve sosyal \ sorumluluk bilincini geliştirme misyonunu üstlenen Junior Chamber International (JCI), Nobel İlaçın bu eğitim programını 2016 Uluslararası Kurumsal Sosyal Sorumluluk Ödülüne layık gördü. Nobel İlaç bu proje ile ülkemizin geleceğini şekillendirecek çocuklarımıza, nitelikli ve kaliteli eğitim verilmesine destek olarak, sağlıklı ve bilinçli bireyler yetişmesine katkı sağlamayı hedeflemiştir. Aynı zamanda ülkemiz çocuklarında farkındalık uyandırarak, gelecekte yapılacak benzer toplumsal projelerde aktif görev almaları için onlara rol model olmayı amaçlamıştır." ``` ## Citation ``` @InProceedings{10.1007/978-3-031-70563-2_16, author="Altinok, Duygu", editor="N{\"o}th, Elmar and Hor{\'a}k, Ale{\v{s}} and Sojka, Petr", title="Bella Turca: A Large-Scale Dataset of Diverse Text Sources for Turkish Language Modeling", booktitle="Text, Speech, and Dialogue", year="2024", publisher="Springer Nature Switzerland", address="Cham", pages="196--213", abstract="In recent studies, it has been demonstrated that incorporating diverse training datasets enhances the overall knowledge and generalization capabilities of large-scale language models, especially in cross-domain scenarios. In line with this, we introduce Bella Turca: a comprehensive Turkish text corpus, totaling 265GB, specifically curated for training language models. Bella Turca encompasses 25 distinct subsets of 4 genre, carefully chosen to ensure diversity and high quality. While Turkish is spoken widely across three continents, it suffers from a dearth of robust data resources for language modelling. Existing transformers and language models have primarily relied on repetitive corpora such as OSCAR and/or Wiki, which lack the desired diversity. Our work aims to break free from this monotony by introducing a fresh perspective to Turkish corpora resources. To the best of our knowledge, this release marks the first instance of such a vast and diverse dataset tailored for the Turkish language. Additionally, we contribute to the community by providing the code used in the dataset's construction and cleaning, fostering collaboration and knowledge sharing.", isbn="978-3-031-70563-2" } ``` ## Acknowledgments This research was supported with Cloud TPUs from Google's TPU Research Cloud (TRC).
提供机构:
YigitCahit
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作