five

Arap-Tweet

收藏
arXiv2018-08-23 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1808.07674v1
下载链接
链接失效反馈
官方服务:
资源简介:
Arap-Tweet是一个大规模的多方言阿拉伯语Twitter语料库,涵盖了阿拉伯世界的11个地区和16个国家,代表了主要的阿拉伯方言变体。该数据集由卡内基梅隆大学卡塔尔分校的研究团队创建,通过Twitter收集数据,并由经验丰富的注释者根据年龄类别、性别和方言变体进行注释。数据集的创建过程中,研究团队基于特定于不同阿拉伯方言的独特关键词进行搜索,并使用Twitter API验证位置。Arap-Tweet数据集旨在丰富阿拉伯语的语言资源,支持作者概况分析工具和自然语言处理工具的开发,特别是在网络安全、市场营销和客户细分等领域。

Arap-Tweet is a large-scale multi-dialectal Arabic Twitter corpus covering 11 regions and 16 countries across the Arab world, representing major Arabic dialect variants. This dataset was created by a research team from Carnegie Mellon University in Qatar, with data collected via Twitter and annotated by experienced annotators based on age categories, gender and dialect variants. During the dataset construction process, the research team conducted searches using unique keywords specific to different Arabic dialects, and verified user locations via the Twitter API. Arap-Tweet aims to enrich Arabic language resources, and support the development of author profiling tools and natural language processing (NLP) tools, particularly in domains such as cybersecurity, marketing and customer segmentation.
提供机构:
卡内基梅隆大学卡塔尔分校
创建时间:
2018-08-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作