zynpdata-zynp_ai-teknofest
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/sekerlipencere/zynpdata-zynp_ai-teknofest
下载链接
链接失效反馈官方服务:
资源简介:
zynpdata-zynp_ai-teknofest是土耳其最大的开源土耳其语数据集,由Technopat论坛抓取并用于2024年Teknofest自然语言处理竞赛。该数据集包含约300万个主题和2100万个回复,总计7GB,涵盖了从硬件到软件、互联网技术、消费电子等多个领域的广泛内容。数据集格式为JSONL,便于处理和分析。
zynpdata-zynp_ai-teknofest is the largest open-source Turkish-language dataset. It was scraped from the Technopat forum and utilized for the 2024 Teknofest Natural Language Processing Competition. This dataset contains approximately 3 million topics and 21 million replies, with a total size of 7 GB, and covers a wide range of fields including hardware, software, internet technology, consumer electronics and more. The dataset is formatted in JSONL, which facilitates efficient processing and analysis.
创建时间:
2024-07-26
原始信息汇总
zynpdata-zynp_ai-teknofest Veri Seti
📊 Proje Tanımı
Türkiyenin en büyük, en çok indexlenen, en çok üyeye sahip olan, en çok anlık aktiviteye sahip ve en popüler forumu Technopattan kazınmış ve Teknofest 2024 Doğal Dil İşleme Yarışması kapsamında oluşturulmuş, tamamen Türkçe ve açık kaynaklı en büyük veri setidir. Yaklaşık 3 milyon konu ve 21 milyon yanıt içeren 7GBlık bu veri seti, Türkçe NLP ve LLM projeleri için kapsamlı bir kaynak sağlar.
🌟 Neden zynpdata?
- Benzersiz İçerik: Technopat forumundan elde edilen gerçek insanlar tarafından yazılmış 30dan fazla katagoride veri içerir.
- Geniş Kapsam: Teknolojiden günlük yaşama kadar çeşitli konuları içerir.
- Büyük Ölçek: 3 milyon konu ve 21 milyon cevap ile Türkçe NLP ve LLM model çalışmaları için eşsiz bir kaynaktır.
- Güncel: Türkiyenin en aktif forumlarından biri olan Technopattan elde edilen güncel veriler ve içerir.
- Çeşitlilik: Farklı yazım stilleri, jargon ve diyalektler içerir aynı zamanda 2012den günümüze kadar çeşitli veriler içerir.
💡 Kullanım Alanları
- Türkçe Doğal Dil İşleme (NLP) modellerinin eğitimi
- Dil modelleri (LLM) için fine-tuning
- Sentiment analizi ve konu modelleme çalışmaları
- Türkçe soru-cevap sistemleri geliştirme
- Sosyal ağ analizi ve kullanıcı davranışı araştırmaları
🚀 Veri Setini İndirme
📈 Proje Aşamaları
1. Link Toplama
- URL Toplama: Hedef web sitesinin sitemapi kullanılarak tüm konu başlıklarının URLleri elde edilmiştir.
- Web Parsing Yöntemi: Her konu sayfasındaki sayfa bağlantılarının web parsing yöntemi ile toplanması düşünülmüştür.
- Mesaj Sayısı Bazlı URL Oluşturma: Her konu sayfasındaki toplam mesaj sayısına dayanarak toplam sayfa sayısının hesaplanması ve URLlerin programatik olarak oluşturulması.
2. İçerik Toplama
- Giriş ve Planlama: 4.5 milyon linki verimli bir şekilde işlemek için doğru bir script geliştirilmesi.
- Soru ve Cevapların İşlenmesi: Forum sayfasından ilk olarak en üstte bulunan soru verisini çekmek ve bu veriyi JSON formatında saklamaktı.
- Ayrıntılı Soru ve Cevapların Çekilmesi: Yeni bir soru tespit edildiğinde, bu soruyu JSON formatında saklamakta ve ayrıntılı soru çekme işlemine geçmektedir.
- Link ve Atıf Bilgilerinin Eklenmesi: Her bir veri kaynağına ait sayfanın linki ve atıf bilgileri JSON verisine eklenmektedir.
3. Veri Formatlama
- JSONdan JSONLye Dönüşüm: JSON formatındaki verilerin JSONL formatına dönüştürülmesi.
- Scriptin İşlevi: JSON formatındaki verileri satır bazında JSONL formatına dönüştürmektedir.
📈 Veri Seti Hakkında Analizler
1. Genel Bakış
- İçerik Örneği: json { "soru": "CS:GO FPS nasıl arttırılır?", "url": "https://www.technopat.net/sosyal/konu/cs-go-fps-nasil-arttirilir.1340872/page-2", "ayrintili_soru": "kaonashii99 dedi:-Freq 144 -High -novid -Console -nosplash +cl_updaterate 128 +cl_cmdrate 128 +cl_interp 0 +Rate 128 +exec autoexec -lv +mat_queue_mode 2 +cl_forcepreload 1 -noforcemaatıfel -noforcemparms -noforcemspd(144 Hz monitör kullandığım için yazdım Hz değerine göre yazabilirsin bu kodu işine yarıyıcak başlatma seçenekleridir.)ParkControl – Tweak CPU Core Parking and Moreverdiğim linkten işlemcinin hızını maksimumda kullanabilirsin sorun yaratmaz işlemcinden alabiliceğin verimi almana yardım eder.Oyunun klasöründen oyununn exe dosyasını bulup özelliklerden uyumlululuk sekmesinde tam ekran iyileştirmesini devre dışı bırak tikini seçin iyi bir FPS almanıza yardımcı olacaktır.800-600 de oynamanı öneririm bu arada 4.3 Black bar fark etmez.Konsoldan FPS Max 0 çekmeniz veriminizi daha artıracaktır.Genişletmek için tıkla...Sadece freq144ümü monitör Hzme göre ayarlayacagım?", "cevaplar": [ "Hocam çoklu CPU kullanımını ayarlardan kapattıysanız aktif edince 4 5 FPS artar.", "Evet sadece 144 ayarını 60 Hzdir büyük ihtimale monitörün 60 yazabilirsin.Fps_max 0 komutu.Ayarlardan ses ayarlarına gelip gelişmiş 3B ses işlemesi hayır yapıp.800-600 formatına çekip Black bar 4.3 boyutu fark etmez nasıl oynuyorsanız yapabilirsiniz.CS:GO görüntü ayarlarında Uber gölgelendirici kullan komutunu hayır yapmanız öneririm dikey eşitleme FPSini sabitler bundan dolayı yüksek FPS değerleri almana mani olur.Oyun açtıktan sonra görev yöneticisinden ayrıntılar sekmesinde csgo.exe komutuna sağ tık ile öncellik ayarlamadan yüksek seçmeniz ve Windows çalıştır (Windows+r) ile MSConfig ile açılan ekrandan ön yüklemeye gelerek gelişmiş seçenekler bastığınızda işlemci sayısına gelip kaç çekirdekliyse hepsini aktif etmeniz 1.den başlayıp aşağı kadar giden sayı değerini en yükseğini seçip tamama basmanız işinize yarayacaktır park üste verdiğim linkten park Control indirmeniz de lazım.Verdiğim başlatma komutlarını yapıp gerisi sistemin oyuna verdiği FPS değerleriyle uygun performansta en azından iyileşmeleriyle beraber oynayabilirsiniz oyun içi ayarlardan şahit olduğum 4.5 FPS demişler yaklaşık 30-40 FPS Boost yapmıştım üste verdiklerimi de yapmanızı öneririm." ], "atıf": "zynp_msg veri seti sekerlipencere tarafından hazırlanmıştır." }
2. Boyut Ve Genel İstatistikler
| Metrik | Değer |
|---|---|
| Toplam Konu Sayısı | 3,094,199 |
| Toplam Cevap Sayısı | 21,000,000 |
| Toplam Kelime Sayısı | 769,457,477 |
| Toplam Dosya Boyutu | 7 GB |
| Toplam Karakter Sayısı | 5,934,600,344 |
3. İçerik Türleri ve Kaynakları
- Forum Konuları
- Cevaplar
- Ürün İncelemeleri
- Teknik Destek Soruları ve Yanıtları
- Haberler ve Yorumlar
- Rehberler ve Öğreticiler
4. Konu Dağılımı ve Çeşitliliği
- Donanım (%25)
- Yazılım (%20)
- İnternet ve Ağ Teknolojileri (%15)
- Tüketici Elektroniği (%10)
- Otomotiv Teknolojileri (%5)
- Bilim ve Teknoloji Haberleri (%10)
- Diğer (%15)
5. Veri Kalitesi ve Ön İşleme
- Dil: Tüm içerik Türkçedir.
- Temizlik: Ham veri temel bir temizleme işleminden geçirilmiştir:
- HTML etiketleri ve özel karakterler kaldırılmıştır.
- Kullanıcı adları ve e-posta adresleri anonimleştirilmiştir.
- Spam içerikler ve tekrar eden mesajlar ayıklanmıştır.
- Normalize Edilmemiş Metin: Yazım hataları, kısaltmalar ve internet jargonu korunmuştur.
6. Zaman Aralığı
Veri seti, 2012 yılından 2024 yılına kadar olan forum içeriklerini kapsamaktadır.
7. Etik Hususlar ve Gizlilik
- Tüm kişisel bilgiler (kullanıcı adları, e-posta adresleri, IP adresleri) anonimleştirilmiştir.
- Veri seti, Technopatın kullanım şartlarına ve gizlilik politikasına uygun olarak oluşturulmuştur.
- Araştırmacılar, bu veri setini kullanırken etik kurallara uymakla yükümlüdür.
8. Potansiyel Kullanım Alanları
- Türkçe Dil Modelleri Geliştirme
- Konu Modelleme ve Metin Sınıflandırma
- Duygu Analizi ve Fikir Madenciliği
- Soru-Cevap Sistemleri
- Metin Özetleme
- Teknoloji Trendleri Analizi
- Sosyal Ağ Analizi
- Kullanıcı Davranışı Modelleme
搜集汇总
数据集介绍

构建方式
zynpdata-zynp_ai-teknofest数据集是通过从土耳其最大的技术论坛Technopat中爬取数据构建的。数据收集过程分为三个阶段:链接收集、内容收集和格式整理。首先,通过解析论坛的站点地图,收集所有主题的URL,并利用脚本自动生成每个主题的多页链接。随后,使用BeautifulSoup库从每个链接中提取详细的问题和回答内容,并将其存储为JSON格式。最后,为了优化数据处理效率,将JSON格式转换为JSONL格式,确保数据的高效管理和分析。整个数据集包含约300万主题和2100万条回答,总计7GB。
使用方法
zynpdata-zynp_ai-teknofest数据集可用于多种自然语言处理任务。首先,它可以用于训练土耳其语NLP模型,如文本分类、情感分析和主题建模。其次,该数据集特别适合用于大型语言模型(LLM)的微调,通过提供高质量的土耳其语对话数据,提升模型在特定任务上的表现。此外,数据集还可用于开发土耳其语问答系统、社交网络分析和用户行为研究。用户可以通过HuggingFace平台下载数据集,并使用Python脚本进行数据处理和分析。
背景与挑战
背景概述
zynpdata-zynp_ai-teknofest数据集是土耳其最大的开源土耳其语数据集,由Technopat论坛的数据爬取而成,专为2024年Teknofest自然语言处理竞赛设计。该数据集包含约300万主题和2100万回复,总计7GB,涵盖了从技术到日常生活的广泛话题。数据集由sekerlipencere团队创建,旨在为土耳其语自然语言处理(NLP)和大语言模型(LLM)的研究提供丰富的语料资源。其独特之处在于数据的多样性和规模,涵盖了2012年至今的论坛内容,反映了土耳其语在技术领域的演变。该数据集不仅为NLP模型的训练提供了基础,还为情感分析、主题建模等任务提供了重要支持。
当前挑战
zynpdata-zynp_ai-teknofest数据集在构建过程中面临了多重挑战。首先,数据爬取阶段需要处理Technopat论坛的复杂结构,包括多页主题和动态加载内容,这对爬虫脚本的性能和效率提出了高要求。其次,论坛服务器的容量限制和Cloudflare的安全验证机制导致数据爬取过程中频繁出现访问限制,需通过分时段爬取策略来缓解。此外,数据清洗和格式化也是一大挑战,需去除HTML标签、匿名化用户信息,并将数据从JSON格式转换为更适合大规模处理的JSONL格式。这些挑战不仅影响了数据集的构建效率,也对后续的数据分析和模型训练提出了更高的技术要求。
常用场景
经典使用场景
zynpdata-zynp_ai-teknofest数据集在土耳其语自然语言处理(NLP)领域具有广泛的应用,尤其是在大规模语言模型(LLM)的训练和微调中。该数据集包含了Technopat论坛上的大量真实对话和讨论,涵盖了从技术问题到日常生活的广泛话题。研究人员可以利用这些数据来训练和优化土耳其语的语言模型,提升其在文本生成、情感分析和问答系统等任务中的表现。
解决学术问题
该数据集解决了土耳其语NLP研究中数据稀缺的问题,尤其是在大规模、多样化的语料库方面。通过提供超过300万条主题和2100万条回复,zynpdata为研究人员提供了一个丰富的资源,用于开发更精确的土耳其语语言模型。此外,数据集中的多样化内容使得模型能够更好地理解和生成自然语言,尤其是在处理技术术语和日常用语时表现出色。
实际应用
在实际应用中,zynpdata数据集可以用于开发土耳其语的智能客服系统、情感分析工具和社交媒体监控平台。例如,企业可以利用该数据集训练模型,自动分析客户反馈中的情感倾向,从而优化客户服务策略。此外,该数据集还可用于构建土耳其语的问答系统,帮助用户快速找到技术问题的解决方案。
数据集最近研究
最新研究方向
近年来,zynpdata-zynp_ai-teknofest数据集在土耳其语自然语言处理(NLP)领域引起了广泛关注。该数据集源自土耳其最大的技术论坛Technopat,涵盖了从2012年至2024年的广泛话题,包含约300万条主题和2100万条回复,总数据量达7GB。这一庞大的数据集为土耳其语语言模型(LLM)的微调和训练提供了丰富的资源,尤其是在多领域文本生成、情感分析和主题建模等任务中表现突出。随着土耳其语NLP研究的深入,zynpdata数据集在推动土耳其语语言模型的性能提升和多样化应用方面发挥了重要作用。此外,该数据集还为社交媒体分析、用户行为研究以及技术趋势预测等新兴研究方向提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成



