five

sekerlipencere/zynpdata-zynp_ai-teknofest

收藏
Hugging Face2024-07-28 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/sekerlipencere/zynpdata-zynp_ai-teknofest
下载链接
链接失效反馈
官方服务:
资源简介:
zynpdata-zynp_ai-teknofest数据集是土耳其最大的开源土耳其语数据集,源自Technopat论坛,包含约300万主题和2100万回复,总计7GB。数据集涵盖了从技术到日常生活的广泛主题,适用于土耳其语自然语言处理(NLP)和大型语言模型(LLM)的研究和开发。数据集的特点包括独特的内容、广泛的覆盖范围、大规模、实时性和多样性。数据集的使用场景包括土耳其语NLP模型的训练、LLM的微调、情感分析、主题建模、问答系统开发、社交网络分析和用户行为研究。数据集的收集过程分为三个阶段:链接收集、内容收集和格式修正。

zynpdata-zynp_ai-teknofest is the largest open-source Turkish dataset in Turkey, scraped from the most popular technology forum Technopat, containing approximately 3 million topics and 21 million replies, with a total size of 7GB. This dataset is primarily used for training and fine-tuning Turkish natural language processing (NLP) and language models (LLM), covering a wide range of topics from technology to daily life, with high diversity and real-time relevance. The dataset collection process includes three main stages: link collection, content scraping, and data formatting, each with detailed descriptions and solutions. The dataset is in JSONL format, making it easy to process and analyze.
提供机构:
sekerlipencere
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作