five

TArC

收藏
arXiv2020-03-24 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2003.09520v2
下载链接
链接失效反馈
官方服务:
资源简介:
TArC是首个突尼斯阿拉伯语阿拉伯化语料库,由法国圣马丁德赫斯大学域的研究人员创建。该数据集包含25000个令牌,涵盖了从2009年至今的文本,旨在观察突尼斯阿拉伯语书写系统的演变。数据集适用于语音学、形态学、句法和语义学研究,以及自然语言处理领域。创建过程中,采用了半自动化的文本收集和标注方法,确保了数据集的代表性和可靠性。TArC的应用领域包括语言学研究和NLP工具的开发,旨在解决阿拉伯语方言资源不足的问题。
提供机构:
法国圣马丁德赫斯大学域
创建时间:
2020-03-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作