five

HinGE

收藏
arXiv2021-07-08 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2107.03760v1
下载链接
链接失效反馈
官方服务:
资源简介:
HinGE数据集是由TCS Research和IIT Gandhinagar创建,专注于Hinglish(印度语和英语混合)文本生成与评估。该数据集包含1978条由人类和两种规则算法生成的Hinglish句子,对应于平行印度语-英语句子。数据集的创建过程涉及从IIT Bombay英语-印度语平行语料库中随机选择句子,并由五名精通英语和印度语的注释者进行注释。HinGE旨在支持代码混合自然语言生成研究,解决现有资源稀缺的问题,特别是在评估代码混合文本生成任务中。

The HinGE dataset was developed by TCS Research and IIT Gandhinagar, focusing on Hinglish (a blend of Hindi and English) text generation and evaluation. This dataset comprises 1978 Hinglish sentences generated by humans and two rule-based algorithms, paired with parallel Hindi-English sentence pairs. The dataset construction process involves randomly selecting sentences from the IIT Bombay English-Hindi Parallel Corpus, followed by annotation from five annotators proficient in both English and Hindi. HinGE aims to support research on code-mixed natural language generation, addressing the scarcity of existing resources, particularly for evaluating code-mixed text generation tasks.
提供机构:
TCS Research 和 IIT Gandhinagar
创建时间:
2021-07-08
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
HinGE数据集是一个专注于Hinglish(印度语和英语混合)文本生成与评估的资源,由TCS Research和IIT Gandhinagar创建。它包含1978条由人类和规则算法生成的句子,基于平行印度语-英语语料库,并由双语注释者处理,旨在支持代码混合自然语言生成研究,解决该领域资源稀缺和评估挑战。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作