five

turkish-nlp-suite/Havadis

收藏
Hugging Face2025-11-03 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/turkish-nlp-suite/Havadis
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - Duygu Altinok language: - tr license: - cc-by-sa-4.0 multilinguality: - monolingual source_datasets: - original pretty_name: Havadis configs: - config_name: default data_files: - split: train path: data/train/* task_categories: - fill-mask - text-generation tags: - newspaper size_categories: - 100K<n<1M --- <img src="https://raw.githubusercontent.com/turkish-nlp-suite/.github/main/profile/havadis.png" width="30%" height="30%"> # Dataset Card for Havadis Havadis is a high quality and large Turkish news corpus, indeed the largest Turkish news corpus ever. This corpus is scraped from online news sebsites and includes text from popular newspapers such as ``` CNN Türk Habertürk Hürriyet Millyet NTV Posta Sabah Star Sözcü Takvim ``` . The instances are first crawled from the corresponding websites, then went throught an extensive cleaning process. We eliminated instances that are too short, too repetetive (mostly ads), ads, some weather forecast and content that lowers the quality of the corpus. This corpus is a part of large scale Turkish corpus [Bella Turca](https://huggingface.co/datasets/turkish-nlp-suite/BellaTurca). For more details about Bella Turca, please refer to [the publication](https://link.springer.com/chapter/10.1007/978-3-031-70563-2_16). The dataset has a single default config and has a single split train, the size info is as follows: | split | num instances | size | num of words| |---|---|---|---| | train | 744.868 | 2.88GB | 315M | | **Total** | 744.868 | 2.88GB | 315M | ### Instances A typical instance from the dataset looks like: ``` { "url": "https://www.takvim.com.tr/yasam/2021/08/05/konyada-7-kisiyi-katleden-cani-mehmet-altunun-ilk-ifadesi-ortaya-cikti-oldurme-kastim-yoktu", "text": "Çemberi daraltan Özel Harekat polisleri Bozkır ilçesine bağlı Üçpınar Mahallesini çember içerisine aldı. \ Ekipler mahalle mezarlığında üzerinde olay günü giydiği kıyafetleri bulunan Altun'u gördü. Polisten kaçmaya çalışan \ Altun kısa sürede yakalanarak gözaltına alındı. 5 gün boyunca kırsal alanda geceleyen ve ihtiyaçlarını doğadan bulduğu \ yiyeceklerde karşılayan Altun sorgulanmak üzere emniyete götürüldü. Katil zanlısı Altun'un cinayeti neden işlediği de \ ortaya çıktı. Daha önce iki aile arasında çıkan kavga nedeniyle aralarında ablası ve eniştesinin de bulunduğu 6 kişi tutuklanmış, \ soruşturma aşamasında 4 kişi tutuksuz yargılanmak üzere serbest bırakılmıştı. Altun'un da bu durumdan olumsuz etkilenen ailesi ile \ ilgili konuşmak için oraya gittiği belirtildi. Katil zanlısının olay günü ağzında bulunan cerrahi maske ile ailenin evine gittiği, \ kendisinin Meram belediyesinde memur olduğunu ve bütün ailenin bir araya gelmesi gerektiğini söylediği, maskeyi çıkarması üzerine \ ailenin kendisini tanıyıp üzerine yürüdüğü, kendisinin de çantasındaki tabancayı çıkartıp, aileye doğrultarak karşılarına \ oturmalarını istediği öğrenildi. Kendisi de aile üyelerinin karşısına oturan Altun'un üzerinde 'önceki dosyalarda tutuklu bulunan \ kişiler hakkında şikayetimden vazgeçtim' yazan kendisinin hazırlamış olduğu uzlaştırma evraklarının imzalamalarını istediği ve bu \ yönde aileyi ikna etmeye çalıştığı ancak ailenin tepki gösterip, üzerine yürümesi üzerine tabancası ile onları öldürdüğü belirtildi. \ Sabah'ın haberine göre zanlı ifadesinde öldürme kastı olmadığını söylediği öğrenilen Altun'un, "Ben oraya sadece şikayetlerinden vazgeçsinler diye ikna etmek için gittim. Tabancamı da yanıma tedbir amaçlı almıştım. Evi ateşe vermek istememin sebebi de kamera kayıt cihazını yakıp, arkamda delil bırakmamaktı" dediği belirtildi. Bankalara çok miktarda kredi borcu olduğu öğrenilen Altun'un, cinayetleri tek başına işlediğini ve ailesinin bu olayda bir bağlantısının olmadığını söylediği belirtildi. Konya'da 7 kişiyi öldüren cani Mehmet Altun yakalandı." ``` ## Citation ``` @InProceedings{10.1007/978-3-031-70563-2_16, author="Altinok, Duygu", editor="N{\"o}th, Elmar and Hor{\'a}k, Ale{\v{s}} and Sojka, Petr", title="Bella Turca: A Large-Scale Dataset of Diverse Text Sources for Turkish Language Modeling", booktitle="Text, Speech, and Dialogue", year="2024", publisher="Springer Nature Switzerland", address="Cham", pages="196--213", abstract="In recent studies, it has been demonstrated that incorporating diverse training datasets enhances the overall knowledge and generalization capabilities of large-scale language models, especially in cross-domain scenarios. In line with this, we introduce Bella Turca: a comprehensive Turkish text corpus, totaling 265GB, specifically curated for training language models. Bella Turca encompasses 25 distinct subsets of 4 genre, carefully chosen to ensure diversity and high quality. While Turkish is spoken widely across three continents, it suffers from a dearth of robust data resources for language modelling. Existing transformers and language models have primarily relied on repetitive corpora such as OSCAR and/or Wiki, which lack the desired diversity. Our work aims to break free from this monotony by introducing a fresh perspective to Turkish corpora resources. To the best of our knowledge, this release marks the first instance of such a vast and diverse dataset tailored for the Turkish language. Additionally, we contribute to the community by providing the code used in the dataset's construction and cleaning, fostering collaboration and knowledge sharing.", isbn="978-3-031-70563-2" } ``` ## Acknowledgments This research was supported with Cloud TPUs from Google's TPU Research Cloud (TRC).
提供机构:
turkish-nlp-suite
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作