alt-qsri/tweets_ar_en_parallel
收藏数据集卡片:阿拉伯-英语平行推文双语语料库
数据集描述
数据集摘要
Twitter用户经常发布平行推文——即包含相同内容但使用不同语言的推文。平行推文是开发机器翻译(MT)系统等自然语言处理(NLP)任务的重要资源。本资源是通过一种通用的方法收集平行推文的结果。使用该方法,我们编译了一个英语-阿拉伯语平行推文的双语语料库和一个定期发布英语-阿拉伯语推文的Twitter账户列表。此外,我们对部分Twitter账户进行了国家来源和兴趣主题的标注,提供了发布平行推文人群的洞察。
支持的任务和排行榜
[更多信息待补充]
语言
数据集包含阿拉伯语和英语。
数据集结构
数据实例
parallelTweets
json { "ArabicTweetID": 981111245209243600, "EnglishTweetID": 981111450432401400 }
accountList
json { "account": "HukoomiQatar" }
countryTopicAnnotation
json { "account": "HukoomiQatar", "country": "QA", "topic": "Gov" }
数据字段
parallelTweets
ArabicTweetID(int)EnglishTweetID(int)
accountList
account(str)
countryTopicAnnotation
account(str)country(class label): 可能的值包括:- "QA", "BH", "AE", "OM", "SA", "PL", "JO", "IQ", "Other", "EG", "KW", "SY"
topic(class label): 可能的值包括:- "Gov", "Culture", "Education", "Sports", "Travel", "Events", "Business", "Science", "Politics", "Health", "Governoment", "Media"
数据分割
所有配置仅有一个分割:"test"。
数据集创建
策划理由
[更多信息待补充]
源数据
初始数据收集和规范化
[更多信息待补充]
源语言生产者是谁?
[更多信息待补充]
标注
标注过程
[更多信息待补充]
标注者是谁?
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据集的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策展人
[更多信息待补充]
许可信息
数据集遵循Apache License, Version 2.0许可。
引用信息
bibtex @inproceedings{Mubarak2020bilingualtweets, title={Constructing a Bilingual Corpus of Parallel Tweets}, author={Mubarak, Hamdy and Hassan, Sabit and Abdelali, Ahmed}, booktitle={Proceedings of 13th Workshop on Building and Using Comparable Corpora (BUCC)}, address={Marseille, France}, year={2020} }
贡献
感谢@sumanthd17添加此数据集。



