GRDD: A Dataset for Greek Dialectal NLP
收藏arXiv2023-11-25 更新2024-06-21 收录
下载链接:
https://github.com/StergiosCha/Greek_dialect_corpus
下载链接
链接失效反馈资源简介:
GRDD数据集由克里特大学创建,旨在为现代希腊方言的自然语言处理提供资源。该数据集包含来自四种现代希腊方言(克里特、庞蒂克、北部希腊和塞浦路斯希腊)的原始文本数据,总计约230万字,尽管存在不平衡。数据集的创建过程涉及从互联网上自由获取的方言数据,包括博客、网站和文学文本,并进行了基本的预处理。该数据集主要用于方言识别任务,展示了即使是简单的机器学习模型也能有效区分这些方言。
提供机构:
克里特大学
创建时间:
2023-08-02



