Corona-mini-dataset
收藏github2023-07-11 更新2024-05-31 收录
下载链接:
https://github.com/turkish-nlp-suite/Corona-mini-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个小型的土耳其语语料库,包含关于新冠病毒症状的评论。该语料库从两个Ekşisözlük标题covid-19 belirtileri和gün gün koronavirüs belirtileri中汇编而成。数据集包含178条原始评论和175条处理过的评论,所有评论均为土耳其语,并提供原始和轻度处理两种版本。
This is a small Turkish corpus containing comments on COVID-19 symptoms. The corpus was compiled from two Ekşisözlük threads titled 'covid-19 belirtileri' and 'gün gün koronavirüs belirtileri'. The dataset includes 178 raw comments and 175 processed comments, all in Turkish, and provides both original and lightly processed versions.
创建时间:
2022-12-08
原始信息汇总
Korona-mini veriseti
Verisetinin Özellikleri
- Boyut: 178 işlenmemiş ve 175 işlenmiş yorum içermektedir.
- Dil: Tüm yorumlar Türkçedir.
- Biçim: İki farklı formatta sunulmaktadır: işlenmiş ve az işlenmiş.
Verisetinin İçeriği
- Kaynaklar: İki adet Ekşisözlük başlığından derlenmiştir:
- https://eksisozluk.com/covid-19-belirtileri--6416646
- https://eksisozluk.com/gun-gun-koronavirus-belirtileri--6757665
Kullanım
- Erişim: Verisetini Huggingface üzerinden indirebilirsiniz.
- Kod Örneği: python from datasets import load_dataset dataset = load_dataset("turkish-nlp-suite/Corona-mini")
Lisans
- Lisans Türü: Creative Commons Attribution-ShareAlike 4.0 International License.
搜集汇总
数据集介绍

构建方式
Corona-mini-dataset的构建基于土耳其语社交媒体平台Ekşisözlük上的两个热门话题,分别是“covid-19 belirtileri”和“gün gün koronavirüs belirtileri”。通过爬取这两个话题下的用户评论,数据集共收集了178条原始评论和175条经过轻度处理的评论。处理过程包括去除HTML标签、括号内的表达式以及其他无关标记,以确保数据的整洁性和可用性。
特点
该数据集的特点在于其专注于土耳其语的自然语言处理,所有评论均为土耳其语,且提供了原始和处理后的两个版本。处理后的版本去除了冗余信息,便于直接用于文本分析任务。数据集的规模虽小,但其内容聚焦于COVID-19症状的描述,为研究土耳其语在公共卫生领域的应用提供了宝贵的资源。
使用方法
Corona-mini-dataset可通过Huggingface平台轻松获取,用户只需使用`datasets`库中的`load_dataset`函数即可加载数据集。具体代码示例如下:`from datasets import load_dataset; dataset = load_dataset('turkish-nlp-suite/Corona-mini')`。该数据集适用于土耳其语的自然语言处理任务,如情感分析、主题建模等。使用者在引用该数据集时,需参考提供的ACL论文以符合学术规范。
背景与挑战
背景概述
Corona-mini-dataset是一个专注于土耳其语的小型语料库,主要收集了关于COVID-19症状的评论。该数据集由Duygu Altinok及其团队于2022年创建,旨在为土耳其自然语言处理(NLP)领域提供更多的语言资源。数据集来源于土耳其知名论坛Ekşisözlük上的两个主题讨论,包含178条原始评论和175条经过初步处理的评论。该数据集的发布不仅丰富了土耳其语的NLP资源,还为研究人员提供了关于COVID-19症状的文本分析基础,进一步推动了土耳其语在医疗健康领域的应用研究。
当前挑战
Corona-mini-dataset在构建和应用过程中面临多重挑战。首先,数据来源的多样性和非结构化特性使得数据清洗和预处理变得复杂,尤其是在去除HTML标签、括号内注释等噪声数据时,需要精确的文本处理技术。其次,土耳其语的形态复杂性和丰富的词缀变化对文本分析和模型训练提出了更高的要求,尤其是在情感分析和症状分类任务中。此外,由于数据规模较小,如何在有限的数据量下训练出高效的模型,也是研究人员需要解决的关键问题。这些挑战不仅考验了数据处理的技术能力,也推动了土耳其语NLP领域的技术创新。
常用场景
经典使用场景
Corona-mini-dataset 是一个包含土耳其语关于新冠症状评论的小型语料库,常用于自然语言处理(NLP)领域的研究。该数据集特别适合用于情感分析和文本分类任务,尤其是在处理土耳其语文本时。研究者可以通过该数据集分析公众对新冠症状的描述和情感反应,进而探索语言模型在特定文化背景下的表现。
实际应用
在实际应用中,Corona-mini-dataset 可以用于开发智能健康助手,帮助用户识别新冠症状并提供相关建议。此外,该数据集还可用于社交媒体监控,分析公众对疫情的实时反应,帮助政府和卫生机构制定更有效的应对策略。通过结合机器学习模型,该数据集能够为公共卫生领域提供数据驱动的决策支持。
衍生相关工作
基于 Corona-mini-dataset,研究者已经开发了多种土耳其语NLP模型,特别是在情感分析和文本分类领域。例如,该数据集被用于训练和评估土耳其语的情感分析模型,推动了土耳其语NLP工具的开发。此外,该数据集还启发了更多关于跨文化情感分析和公共卫生数据挖掘的研究,进一步扩展了其应用范围。
以上内容由遇见数据集搜集并总结生成



