hinglishNorm
收藏arXiv2020-10-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2010.08974v1
下载链接
链接失效反馈官方服务:
资源简介:
hinglishNorm是由Vahan Inc创建的一个包含13494个Hindi-English混合语句的数据集,专门用于文本规范化任务。该数据集的特点是每个句子都配有其人工标注的规范化形式,旨在解决非标准文本到标准格式的转换问题。数据集的创建过程包括数据收集、过滤与清洗、以及人工标注等步骤。hinglishNorm主要应用于自然语言处理领域,特别是在为印度用户构建互联网应用时,处理混合语言文本的需求。
提供机构:
Vahan Inc
创建时间:
2020-10-18



