five

Tunisian Arabish Corpus (TArC)

收藏
arXiv2022-07-11 更新2024-06-21 收录
下载链接:
https://github.com/eligugliotta/tarc
下载链接
链接失效反馈
官方服务:
资源简介:
Tunisian Arabish Corpus(TArC)是由格勒诺布尔信息技术实验室的研究人员Elisa Gugliotta和Marco Dinarelli创建的一个全面的数据集,专注于突尼斯阿拉伯语在数字对话中的拉丁字母编码系统。该数据集包含43,327个单词,来源于社交媒体、论坛和博客等数字网络写作环境。TArC数据集通过半自动标注程序进行构建,使用基于神经网络的自然语言处理工具进行多级语言信息标注,包括词类分类、转录、分词、词性标注和词形化。该数据集旨在支持计算语言学和语言研究,特别是在突尼斯阿拉伯语的处理和分析方面。

Tunisian Arabish Corpus (TArC) is a comprehensive dataset created by researchers Elisa Gugliotta and Marco Dinarelli from the Grenoble Informatics Laboratory. It focuses on the Latin-script romanization system of Tunisian Arabic in digital conversations. The dataset contains 43,327 words, sourced from digital writing environments such as social media, forums and blogs. TArC was constructed via a semi-automatic annotation pipeline, and uses neural network-based natural language processing tools to perform multi-level linguistic annotations including part-of-speech classification, transcription, word segmentation, part-of-speech tagging and lemmatization. This dataset is designed to support computational linguistics and language research, particularly in the processing and analysis of Tunisian Arabic.
提供机构:
格勒诺布尔信息技术实验室(LIG)
创建时间:
2022-07-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作