thinkedgeAI/Hindi-Niband|印地语处理数据集|自然语言生成数据集
收藏数据集名称:Hindi- Niband(大规模印地语文本数据集)
数据集概述
该数据集是一个全面的文本数据集合,包含超过100亿个标记。它涵盖了广泛的来源,包括维基百科文章、新闻文章、电子邮件记录和生成的提示文本。特定印地语数据列是从CulturaX数据集中提取的,CulturaX是一个大型的、经过清洗的、多语言的数据集,用于大型语言模型。我们通过提供的引用信息来承认和引用CulturaX数据集。
数据来源
- 维基百科文章: 从涵盖各种主题和领域的维基百科文章中提取的大量文本。
- 新闻文章: 来自不同来源和地区的新闻文章的文本数据。
- 电子邮件记录: 电子邮件通信的记录,提供了电子通信中自然语言使用的见解。
- 提示文本生成: 从提示或用于生成文本的提示生成的文本,有助于数据集的多样性和复杂性。
- 来自CulturaX数据集的印地语数据: 从CulturaX数据集中提取的特定印地语数据列,该数据集是一个大型的、经过清洗的、多语言的数据集,用于大型语言模型。
潜在用途
- 在印地语领域训练和评估自然语言生成模型。
- 探索模型在叙事生成任务中的能力。
- 进行印地语叙事理解和生成的研究。
- 分析印地语文本数据中的情感和观点挖掘。
- 构建能够用印地语交互的聊天机器人或虚拟助手。
- 创建用于教授印地语语言和文学的教育资源。
- 开发印地语与其他语言之间的机器翻译系统。
- 研究跨语言迁移学习技术,以改进印地语的自然语言处理任务。
对印度本土语言的重要性
该数据集对于训练大型语言模型(LLM)并探索印地语自然语言生成模型的能力至关重要。它为训练和评估能够生成连贯且上下文相关叙事或解释的模型奠定了基础。此外,该数据集与我们推广印度本土语言在全球范围内的承诺相一致。我们认识到这类数据集的有限可用性是印度本土社区创新的主要挑战。作为对印度开源社区的贡献,我们计划发布涵盖各种印度本土语言的非常大型数据库。这一举措旨在赋予研究人员、从业者和开发者探索和创新印度语言处理和生成任务的能力。
引用
如果您在研究或应用中使用此数据集,请考虑使用提供的引用信息来引用CulturaX数据集。
我们通过以下引用信息来承认和引用CulturaX数据集:
@misc{nguyen2023culturax, title={CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages}, author={Thuat Nguyen and Chien Van Nguyen and Viet Dac Lai and Hieu Man and Nghia Trung Ngo and Franck Dernoncourt and Ryan A. Rossi and Thien Huu Nguyen}, year={2023}, eprint={2309.09400}, archivePrefix={arXiv}, primaryClass={cs.CL} }
此外,数据集还包括新闻文章数据,我们通过以下引用信息来承认和引用这些数据的来源:
@inproceedings{see-etal-2017-get, title={Get To The Point: Summarization with Pointer-Generator Networks}, author={See, Abigail and Liu, Peter J. and Manning, Christopher D.}, booktitle={Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, month=jul, year=2017, address={Vancouver, Canada}, publisher={Association for Computational Linguistics}, url={https://www.aclweb.org/anthology/P17-1099}, doi={10.18653/v1/P17-1099}, pages={1073--1083}, abstract={Neural sequence-to-sequence models have provided a viable new approach for abstractive text summarization (meaning they are not restricted to simply selecting and rearranging passages from the original text). However, these models have two shortcomings: they are liable to reproduce factual details inaccurately, and they tend to repeat themselves. In this work we propose a novel architecture that augments the standard sequence-to-sequence attentional model in two orthogonal ways. First, we use a hybrid pointer-generator network that can copy words from the source text via pointing, which aids accurate reproduction of information, while retaining the ability to produce novel words through the generator. Second, we use coverage to keep track of what has been summarized, which discourages repetition. We apply our model to the CNN / Daily Mail summarization task, outperforming the current abstractive state-of-the-art by at least 2 ROUGE points.} }
@inproceedings{DBLP:conf/nips/HermannKGEKSB15, author={Karl Moritz Hermann and Tomás Kociský and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom}, title={Teaching Machines to Read and Comprehend}, year=2015, cdate=1420070400000, pages=1693-1701, url={http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend}, booktitle=NIPS, crossref={conf/nips/2015} }
许可证
请参考数据集创建者指定的许可条款。
免责声明
数据集中的观点并不一定反映数据集创建者或贡献者的观点。用户应负责任地使用数据,并遵守道德准则。



