VACASPATI
收藏arXiv2023-07-11 更新2024-06-21 收录
下载链接:
https://bangla.iitk.ac.in/projects/vacaspati.html
下载链接
链接失效反馈官方服务:
资源简介:
VACASPATI是由印度理工学院坎普尔分校计算机科学与工程系创建的一个孟加拉文学语料库,包含超过1150万句子和11500万单词。该语料库通过收集来自不同网站的公开可用文学作品构建,确保无版权问题。VACASPATI的多样性体现在作品类型、主题、作者、时间和空间等多个方面,旨在为孟加拉语的自然语言处理任务提供高质量资源,特别是在词形还原、词性标注等基础任务上。此外,VACASPATI还被用于训练词嵌入模型和BERT模型,以支持更复杂的自然语言处理任务,如诗歌分类、情感分析和拼写错误检测等。
提供机构:
印度理工学院坎普尔分校计算机科学与工程系
创建时间:
2023-07-11



