five

English-Hindi Code-Mixed Tweets Corpus

收藏
arXiv2018-06-14 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1806.05600v1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为‘English-Hindi Code-Mixed Tweets Corpus’,由国际信息技术研究所语言技术研究中心创建。该数据集包含4015条从Twitter收集的英语-印地语混合文本推文,每条推文均标注了作者性别和语言标签。数据集的创建涉及从1000个Twitter账户中提取过去两年内涉及印度社会政治问题的推文,并通过人工标注性别和语言。此数据集主要用于性别预测,特别是在社交媒体文本中的应用,旨在解决语言混合文本中的性别识别问题。

The dataset named 'English-Hindi Code-Mixed Tweets Corpus' was created by the Language Technology Research Center of the International Institute of Information Technology. It contains 4015 English-Hindi code-mixed tweets collected from Twitter, with each tweet annotated with the author's gender and language tags. The development of this dataset involved extracting tweets related to Indian socio-political issues from 1,000 Twitter accounts over the past two years, followed by manual annotation of gender and language information. This corpus is primarily utilized for gender prediction tasks, especially in social media texts, aiming to address the challenge of gender recognition in code-mixed textual content.
提供机构:
国际信息技术研究所语言技术研究中心
创建时间:
2018-06-14
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作