five

Taxi1500

收藏
arXiv2023-05-15 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2305.08487v1
下载链接
链接失效反馈
官方服务:
资源简介:
Taxi1500是一个大规模多语言文本分类数据集,由信息与语言处理中心,慕尼黑大学创建。该数据集包含超过1500种语言的1077条圣经经文,主要通过利用圣经的平行翻译来构建。数据集的创建过程涉及开发适用的话题,并通过众包工具收集标注数据。Taxi1500的应用领域主要集中在自然语言处理中的多语言和低资源语言的文本分类问题,旨在通过提供广泛的语言覆盖来解决现有数据集在低资源和濒危语言上的不足。
提供机构:
信息与语言处理中心,慕尼黑大学
创建时间:
2023-05-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作