five

Hindi-Aesthetics-Corpus

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Aesthetics_Text_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该语料库由用印地语编写的小说和短篇小说组成。我们从圣雄甘地·安塔拉什特里亚·辛迪瓦·维迪亚亚 (译为圣雄甘地国际印地语大学) 维护的电子图书馆http://hindisamay.com,http://premchand.co.in,一个致力于流行小说家premchand故事的网站,和Bhandarkar东方研究所的数字图书馆 (http://borilib.com)。作为预处理步骤,我们将文本拆分为句子,并删除了特殊字符,英语令牌和拉丁数字。

This corpus comprises novels and short stories written in Hindi. We collected the dataset from three sources: 1) the electronic library maintained by Mahatma Gandhi Antarashtriya Hindi Vidyalaya, officially translated as Mahatma Gandhi International Hindi University, with its domain http://hindisamay.com; 2) the website http://premchand.co.in, which is dedicated to the works of the renowned Hindi author Premchand; and 3) the digital library of the Bhandarkar Oriental Research Institute, accessible at http://borilib.com. As a preprocessing step, we split the text into sentences and removed special characters, English tokens, and Latin numerals.
提供机构:
OpenDataLab
创建时间:
2022-06-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个印地语美学文本语料库,由从多个电子图书馆收集的印地语小说和短篇小说构成,并经过分句和特殊字符清理等预处理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作