TArC
收藏arXiv2020-03-24 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2003.09520v2
下载链接
链接失效反馈官方服务:
资源简介:
TArC是首个突尼斯阿拉伯语阿拉伯化语料库,由法国圣马丁德赫斯大学域的研究人员创建。该数据集包含25000个令牌,涵盖了从2009年至今的文本,旨在观察突尼斯阿拉伯语书写系统的演变。数据集适用于语音学、形态学、句法和语义学研究,以及自然语言处理领域。创建过程中,采用了半自动化的文本收集和标注方法,确保了数据集的代表性和可靠性。TArC的应用领域包括语言学研究和NLP工具的开发,旨在解决阿拉伯语方言资源不足的问题。
提供机构:
法国圣马丁德赫斯大学域
创建时间:
2020-03-21



