five

hinglishNorm

收藏
arXiv2020-10-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2010.08974v1
下载链接
链接失效反馈
官方服务:
资源简介:
hinglishNorm是由Vahan Inc创建的一个包含13494个Hindi-English混合语句的数据集,专门用于文本规范化任务。该数据集的特点是每个句子都配有其人工标注的规范化形式,旨在解决非标准文本到标准格式的转换问题。数据集的创建过程包括数据收集、过滤与清洗、以及人工标注等步骤。hinglishNorm主要应用于自然语言处理领域,特别是在为印度用户构建互联网应用时,处理混合语言文本的需求。
提供机构:
Vahan Inc
创建时间:
2020-10-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作