five

thinkedgeAI/Hindi-Niband|印地语处理数据集|自然语言生成数据集

收藏
hugging_face2024-03-01 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/thinkedgeAI/Hindi-Niband
下载链接
链接失效反馈
资源简介:
该数据集是一个包含超过100亿个标记的印地语文本数据集,涵盖了维基百科文章、新闻文章、电子邮件转录和生成的提示文本等多种来源。数据集还包括从CulturaX数据集中提取的特定印地语数据列。该数据集可用于训练和评估印地语自然语言生成模型、进行叙事生成任务的研究、分析印地语文本数据中的情感和意见挖掘、构建能够用印地语交互的聊天机器人或虚拟助手、创建教学资源、开发机器翻译系统以及研究跨语言迁移学习技术。此外,该数据集对印度本土语言的研究和开发具有重要意义。

该数据集是一个包含超过100亿个标记的印地语文本数据集,涵盖了维基百科文章、新闻文章、电子邮件转录和生成的提示文本等多种来源。数据集还包括从CulturaX数据集中提取的特定印地语数据列。该数据集可用于训练和评估印地语自然语言生成模型、进行叙事生成任务的研究、分析印地语文本数据中的情感和意见挖掘、构建能够用印地语交互的聊天机器人或虚拟助手、创建教学资源、开发机器翻译系统以及研究跨语言迁移学习技术。此外,该数据集对印度本土语言的研究和开发具有重要意义。
提供机构:
thinkedgeAI
原始信息汇总

数据集名称:Hindi- Niband(大规模印地语文本数据集)

数据集概述

该数据集是一个全面的文本数据集合,包含超过100亿个标记。它涵盖了广泛的来源,包括维基百科文章、新闻文章、电子邮件记录和生成的提示文本。特定印地语数据列是从CulturaX数据集中提取的,CulturaX是一个大型的、经过清洗的、多语言的数据集,用于大型语言模型。我们通过提供的引用信息来承认和引用CulturaX数据集。

数据来源

  1. 维基百科文章: 从涵盖各种主题和领域的维基百科文章中提取的大量文本。
  2. 新闻文章: 来自不同来源和地区的新闻文章的文本数据。
  3. 电子邮件记录: 电子邮件通信的记录,提供了电子通信中自然语言使用的见解。
  4. 提示文本生成: 从提示或用于生成文本的提示生成的文本,有助于数据集的多样性和复杂性。
  5. 来自CulturaX数据集的印地语数据: 从CulturaX数据集中提取的特定印地语数据列,该数据集是一个大型的、经过清洗的、多语言的数据集,用于大型语言模型。

潜在用途

  • 在印地语领域训练和评估自然语言生成模型。
  • 探索模型在叙事生成任务中的能力。
  • 进行印地语叙事理解和生成的研究。
  • 分析印地语文本数据中的情感和观点挖掘。
  • 构建能够用印地语交互的聊天机器人或虚拟助手。
  • 创建用于教授印地语语言和文学的教育资源。
  • 开发印地语与其他语言之间的机器翻译系统。
  • 研究跨语言迁移学习技术,以改进印地语的自然语言处理任务。

对印度本土语言的重要性

该数据集对于训练大型语言模型(LLM)并探索印地语自然语言生成模型的能力至关重要。它为训练和评估能够生成连贯且上下文相关叙事或解释的模型奠定了基础。此外,该数据集与我们推广印度本土语言在全球范围内的承诺相一致。我们认识到这类数据集的有限可用性是印度本土社区创新的主要挑战。作为对印度开源社区的贡献,我们计划发布涵盖各种印度本土语言的非常大型数据库。这一举措旨在赋予研究人员、从业者和开发者探索和创新印度语言处理和生成任务的能力。

引用

如果您在研究或应用中使用此数据集,请考虑使用提供的引用信息来引用CulturaX数据集。

我们通过以下引用信息来承认和引用CulturaX数据集:

@misc{nguyen2023culturax, title={CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages}, author={Thuat Nguyen and Chien Van Nguyen and Viet Dac Lai and Hieu Man and Nghia Trung Ngo and Franck Dernoncourt and Ryan A. Rossi and Thien Huu Nguyen}, year={2023}, eprint={2309.09400}, archivePrefix={arXiv}, primaryClass={cs.CL} }

此外,数据集还包括新闻文章数据,我们通过以下引用信息来承认和引用这些数据的来源:

@inproceedings{see-etal-2017-get, title={Get To The Point: Summarization with Pointer-Generator Networks}, author={See, Abigail and Liu, Peter J. and Manning, Christopher D.}, booktitle={Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, month=jul, year=2017, address={Vancouver, Canada}, publisher={Association for Computational Linguistics}, url={https://www.aclweb.org/anthology/P17-1099}, doi={10.18653/v1/P17-1099}, pages={1073--1083}, abstract={Neural sequence-to-sequence models have provided a viable new approach for abstractive text summarization (meaning they are not restricted to simply selecting and rearranging passages from the original text). However, these models have two shortcomings: they are liable to reproduce factual details inaccurately, and they tend to repeat themselves. In this work we propose a novel architecture that augments the standard sequence-to-sequence attentional model in two orthogonal ways. First, we use a hybrid pointer-generator network that can copy words from the source text via pointing, which aids accurate reproduction of information, while retaining the ability to produce novel words through the generator. Second, we use coverage to keep track of what has been summarized, which discourages repetition. We apply our model to the CNN / Daily Mail summarization task, outperforming the current abstractive state-of-the-art by at least 2 ROUGE points.} }

@inproceedings{DBLP:conf/nips/HermannKGEKSB15, author={Karl Moritz Hermann and Tomás Kociský and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom}, title={Teaching Machines to Read and Comprehend}, year=2015, cdate=1420070400000, pages=1693-1701, url={http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend}, booktitle=NIPS, crossref={conf/nips/2015} }

许可证

请参考数据集创建者指定的许可条款。

免责声明

数据集中的观点并不一定反映数据集创建者或贡献者的观点。用户应负责任地使用数据,并遵守道德准则。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作