five

MMT

收藏
arXiv2023-04-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2304.00634v1
下载链接
链接失效反馈
官方服务:
资源简介:
MMT数据集是由印度理工学院甘地讷格尔分校和TCS研究机构共同创建,包含约175万条来自Twitter的多语言和多主题印度社交媒体数据。该数据集涵盖13个粗粒度和63个细粒度话题,涉及印度社会文化的多个方面。创建过程中,研究人员通过选择多样化的团队成员,识别相关话题,并收集和标注数据。MMT数据集的应用领域包括语言识别、话题建模和实体识别等,旨在解决多语言环境下的自然语言处理挑战。

The MMT dataset was jointly created by the Indian Institute of Technology Gandhinagar and TCS Research, comprising approximately 1.75 million multilingual and multi-topic Indian social media posts from Twitter. This dataset covers 13 coarse-grained and 63 fine-grained topics, spanning multiple aspects of Indian society and culture. During its development process, researchers assembled a diverse team to identify relevant topics, and collected and annotated the dataset. The MMT dataset has applications in areas including language identification, topic modeling, and entity recognition, aiming to address natural language processing challenges in multilingual environments.
提供机构:
印度理工学院甘地讷格尔分校
创建时间:
2023-04-03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作