five

EusCrawl

收藏
arXiv2022-10-27 更新2024-06-21 收录
下载链接:
https://www.ixa.eus/euscrawl/
下载链接
链接失效反馈
官方服务:
资源简介:
EusCrawl是由HiTZ中心和巴斯克大学创建的高质量巴斯克语数据集,包含12.5M文档和423M令牌,主要通过手动识别和抓取高质量内容的网站构建。该数据集在质量上显著优于其他多语言数据集,如mC4和CC100,由本地注释者评估。EusCrawl的应用领域包括自然语言理解任务,旨在解决低资源语言在NLP中的性能问题,尤其是在数据量和领域覆盖方面的重要性。
提供机构:
HiTZ 中心,巴斯克大学 (UPV/EHU)
创建时间:
2022-03-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作