Tunisian Arabish Corpus (TArC)

Name: Tunisian Arabish Corpus (TArC)
Creator: 格勒诺布尔信息技术实验室(LIG)
Published: 2022-07-11 19:46:59
License: 暂无描述

arXiv2022-07-11 更新2024-06-21 收录

下载链接：

https://github.com/eligugliotta/tarc

下载链接

链接失效反馈

官方服务：

资源简介：

Tunisian Arabish Corpus（TArC）是由格勒诺布尔信息技术实验室的研究人员Elisa Gugliotta和Marco Dinarelli创建的一个全面的数据集，专注于突尼斯阿拉伯语在数字对话中的拉丁字母编码系统。该数据集包含43,327个单词，来源于社交媒体、论坛和博客等数字网络写作环境。TArC数据集通过半自动标注程序进行构建，使用基于神经网络的自然语言处理工具进行多级语言信息标注，包括词类分类、转录、分词、词性标注和词形化。该数据集旨在支持计算语言学和语言研究，特别是在突尼斯阿拉伯语的处理和分析方面。

Tunisian Arabish Corpus (TArC) is a comprehensive dataset created by researchers Elisa Gugliotta and Marco Dinarelli from the Grenoble Informatics Laboratory. It focuses on the Latin-script romanization system of Tunisian Arabic in digital conversations. The dataset contains 43,327 words, sourced from digital writing environments such as social media, forums and blogs. TArC was constructed via a semi-automatic annotation pipeline, and uses neural network-based natural language processing tools to perform multi-level linguistic annotations including part-of-speech classification, transcription, word segmentation, part-of-speech tagging and lemmatization. This dataset is designed to support computational linguistics and language research, particularly in the processing and analysis of Tunisian Arabic.

提供机构：

格勒诺布尔信息技术实验室(LIG)

创建时间：

2022-07-11

5,000+

优质数据集

54 个

任务类型

进入经典数据集