Hindi Aesthetics Corpus and Stop Lemma List

github2021-08-21 更新2024-05-31 收录

下载链接：

https://github.com/gayatrivenugopal/hindi-corpus-stoplemmas

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含一个美学语料库，该语料库是通过以下来源的文本创建的：1. Mahatma Gandhi Antarrashtriya Hindi Vishwa Vidyalaya维护的电子图书馆http://hindisamay.com；2. 著名小说家Premchand故事的网站http://premchand.co.in；3. Bhandarkar Oriental Research Institute的数字图书馆http://borilib.com。此外，仓库还包含一个详尽的停用词列表，该列表是从多个来源准备的。

本仓库汇聚了一座美学文献宝库，其内容源自以下渠道：1. 由Mahatma Gandhi Antarrashtriya Hindi Vishwa Vidyalaya所维护的电子图书馆（http://hindisamay.com）；2. 著名小说家Premchand创作的故事网站（http://premchand.co.in）；3. Bhandarkar Oriental Research Institute的数字图书馆（http://borilib.com）。此外，仓库中还附带了一份详尽的停用词列表，该列表系综合多源信息精心编制而成。

创建时间：

2019-10-20

原始信息汇总

数据集概述

数据集名称

Hindi Aesthetics Corpus and Stop Lemma List

数据集内容

Aesthetics Corpus
- 来源：
  - http://hindisamay.com
  - http://premchand.co.in
  - Bhandarkar Oriental Research Institute’s Digital Library (http://borilib.com)
Stop Word List
- 来源：
  - Wictionary Top 1900
  - https://1000mostcommonwords.com/1000-most-common-hindi-words
  - https://blogs.transparent.com/hindi/first-100-high-frequency-words-in-hindi
  - http://home.iitk.ac.in/~prasant/HindiCorpus/word.html
  - https://github.com/oprogramador/most-common-words-by-language
  - https://github.com/Alir3z4/stop-words
  - https://github.com/stopwords-iso/stopwords-hi/blob/master/stopwords-hi.txt
  - https://github.com/Xangis/extra-stopwords
  - https://data.mendeley.com/datasets/bsr3frvvjc/1
  - https://www.ranks.nl/stopwords/hindi
  - Frequency list generated from Wiki Dump August 2019
  - Aesthetics Corpus (custom)
  - http://opus.nlpl.eu/
  - CFILT Hindi Corpus
  - CFILT Hindi English Parallel Corpus
  - TDIL English Hindi Tourism Text Corpus
  - TDIL Hindi English ILCI II Corpus on Agriculture and Entertainment
  - TDIL Hindi Monolingual Text Corpus ILCI II
  - TDIL Hindi English Health ILCI

版权与许可

版权所有：Gayatri Venugopal
许可：GNU GPL v3

合作作者

Dr. Jatinderkumar R. Saini
Dr. Dhanya Pramod

搜集汇总

数据集介绍

构建方式

Hindi Aesthetics Corpus and Stop Lemma List数据集的构建基于多个权威的印地语文本资源。美学语料库的文本来源于Mahatma Gandhi Antarrashtriya Hindi Vishwa Vidyalaya的电子图书馆、Premchand故事网站以及Bhandarkar东方研究研究所的数字图书馆。停用词列表则整合了来自Wictionary、1000mostcommonwords.com、Transparent Language Blog等多个平台的常用印地语词汇，并结合了CFILT和TDIL等机构提供的语料库资源。这些资源的整合确保了数据集的广泛覆盖性和权威性。

特点

该数据集的特点在于其多样性和全面性。美学语料库涵盖了从经典文学到现代文本的广泛内容，反映了印地语文学的丰富多样性。停用词列表则通过整合多个来源的常用词汇，形成了一个详尽且实用的停用词库，适用于多种自然语言处理任务。此外，数据集还包含了来自TDIL的多种语言学资源，进一步增强了其在印地语处理领域的应用价值。

使用方法

该数据集的使用方法主要围绕美学语料库和停用词列表展开。美学语料库可用于文本分析、情感分析以及文学研究等领域，帮助研究者深入理解印地语文本的美学特征。停用词列表则可用于文本预处理，提升自然语言处理模型的性能。用户可以通过GitHub获取数据集，并根据GNU GPL v3许可证进行使用和修改，适用于学术研究和商业应用。

背景与挑战

背景概述

Hindi Aesthetics Corpus and Stop Lemma List 数据集由多个来源的文本构建而成，主要来源于Mahatma Gandhi Antarrashtriya Hindi Vishwa Vidyalaya的电子图书馆、Premchand的小说故事网站以及Bhandarkar Oriental Research Institute的数字图书馆。该数据集由Dr. Jatinderkumar R. Saini和Dr. Dhanya Pramod共同创建，并于2019年发布。其核心研究问题在于为印地语文本的美学分析和自然语言处理任务提供高质量的语料库和停用词列表。该数据集在印地语文本处理、机器翻译和情感分析等领域具有重要影响力，为相关研究提供了宝贵的基础资源。

当前挑战

Hindi Aesthetics Corpus and Stop Lemma List 数据集在构建过程中面临多重挑战。首先，印地语文本的多样性和复杂性使得语料库的收集和标准化变得困难，尤其是在处理不同来源的文本时，需要确保数据的一致性和质量。其次，停用词列表的构建需要综合考虑多种来源的词汇频率和语言使用习惯，这对数据集的全面性和准确性提出了较高要求。此外，印地语作为一种形态丰富的语言，其词形变化和语法结构增加了文本处理的难度，这对数据集的标注和预处理工作提出了更高的技术挑战。

常用场景

经典使用场景

Hindi Aesthetics Corpus and Stop Lemma List数据集在自然语言处理领域中被广泛应用于印地语文本的预处理和美学分析。研究者利用该数据集中的美学语料库和停用词列表，进行文本清洗、特征提取以及情感分析等任务，特别是在印地语文学作品的风格分析和语言模型训练中，该数据集提供了丰富的基础资源。

实际应用

在实际应用中，Hindi Aesthetics Corpus and Stop Lemma List被广泛用于印地语搜索引擎优化、文学作品的数字化处理以及教育领域的语言学习工具开发。例如，在印地语文学研究中，该数据集帮助研究者分析经典作品的风格特征；在教育领域，它为语言学习者提供了高质量的停用词资源，提升了语言学习效率。

衍生相关工作

基于该数据集，研究者开发了多种印地语自然语言处理工具和模型，如印地语情感分析系统、印地语文本分类器以及印地语机器翻译模型。此外，该数据集还启发了对印地语美学特征的深入研究，推动了印地语文学数字化和语言资源标准化的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集