ai4bharat/samanantar

Name: ai4bharat/samanantar
Creator: ai4bharat
Published: 2024-12-24 08:13:04
License: 暂无描述

Hugging Face2024-12-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ai4bharat/samanantar

下载链接

链接失效反馈

官方服务：

资源简介：

Samanantar是一个包含英语与11种印度语言之间平行句对的最大公开语料库。该语料库包含49.6百万个句子对，涵盖了英语与阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语之间的翻译。数据集的主要用途是文本生成和翻译任务。数据集的创建者没有提供注释，语言是由现有资源收集的。数据集的许可证是CC-BY-NC-4.0，允许非商业用途。

Samanantar is the largest publicly available parallel sentence corpus between English and 11 Indian languages. It contains 49.6 million sentence pairs, covering translation pairs between English and Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Odia, Punjabi, Tamil, and Telugu. The primary intended applications of this dataset are text generation and machine translation tasks. No annotations were provided by the dataset's creators, and the linguistic data was collected from existing resources. The dataset is licensed under CC-BY-NC-4.0, which permits non-commercial use.

提供机构：

ai4bharat

原始信息汇总

数据集概述

名称: Samanantar

描述: Samanantar是最大的公开可用平行语料库集合，涵盖11种印度语言：阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语。该语料库包含4960万对从英语到印度语言的句子对。

语言: 包含英语(en)和11种印度语言：阿萨姆语(as)、孟加拉语(bn)、古吉拉特语(gu)、印地语(hi)、卡纳达语(kn)、马拉雅拉姆语(ml)、马拉地语(mr)、奥里亚语(or)、旁遮普语(pa)、泰米尔语(ta)、泰卢固语(te)。

许可证: Creative Commons Attribution-NonCommercial 4.0 International (cc-by-nc-4.0)

多语言性: 翻译

任务类别: 文本生成、翻译

数据集结构:

数据实例: 包含索引(idx)、源语言句子(src)、目标语言句子(tgt)和数据来源(data_source)。
数据字段:
- idx: 整数，ID。
- src: 字符串，源语言（英语）句子。
- tgt: 字符串，目标语言（11种印度语言之一）句子。
- data_source: 字符串，数据来源，可能包括多种来源如anuvaad_catchnews, anuvaad_DD_National等。

创建信息:

许可证信息: 数据集遵循Creative Commons Attribution-NonCommercial 4.0 International许可证。
贡献者: 感谢@albertvillanova添加此数据集。

引用信息:

@misc{ramesh2021samanantar, title={Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages}, author={Gowtham Ramesh and Sumanth Doddapaneni and Aravinth Bheemaraj and Mayank Jobanputra and Raghavan AK and Ajitesh Sharma and Sujit Sahoo and Harshita Diddee and Mahalakshmi J and Divyanshu Kakwani and Navneet Kumar and Aswin Pradeep and Srihari Nagaraj and Kumar Deepak and Vivek Raghavan and Anoop Kunchukuttan and Pratyush Kumar and Mitesh Shantadevi Khapra}, year={2021}, eprint={2104.05596}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的多语言平行语料库是推动机器翻译与跨语言理解研究的关键基础。Samanantar数据集的构建过程体现了系统性的资源整合与创新挖掘方法。该数据集通过汇集现有公开平行语料库中的1240万句对，并进一步从网络资源中挖掘出3740万句对，实现了语料规模的显著扩展。挖掘过程综合运用了网络爬取的单语料库、文档光学字符识别技术、多语言表示模型进行句子对齐，以及近似最近邻搜索在大规模句子集合中进行高效检索，从而确保了语料来源的多样性与句子对齐的准确性。

特点

作为目前公开可用的最大规模印度语系平行语料集合，Samanantar数据集涵盖了英语与11种印度语言之间的平行句对，总数高达4960万。其显著特点在于语言覆盖的广度，包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语，这些语言分属不同的语系，为研究印度语言的多语言处理提供了宝贵资源。数据实例结构清晰，每条记录包含索引、英语源句、目标语言句子及数据来源标识，便于研究者追溯与分析。

使用方法

该数据集主要应用于文本生成与机器翻译任务的研究与模型训练。使用者可通过HuggingFace平台提供的标准化接口加载特定语言配置的数据，例如‘bn’代表孟加拉语，‘hi’代表印地语。数据以训练集形式组织，未提供预设的验证或测试划分，因此研究人员需根据任务需求自行进行数据分割。在模型训练过程中，可充分利用其大规模的平行句对来训练从英语到各印度语言的神经机器翻译模型，或利用英语作为枢轴语言，探索各印度语言之间的直接翻译。数据遵循CC-BY-NC-4.0许可协议，适用于非商业性的学术研究。

背景与挑战

背景概述

在自然语言处理领域，多语言机器翻译一直是推动语言技术民主化的核心议题。Samanantar数据集由印度AI4Bharat研究团队于2022年正式发布，旨在构建涵盖11种印度语言的庞大平行语料库。该数据集汇集了来自网络爬取、光学字符识别及现有公开资源的4960万句对，显著缓解了印度语言在机器翻译任务中数据稀缺的困境。其创建不仅促进了印度语言与英语之间的高质量翻译模型研发，更为跨语言信息检索、多语言预训练模型等研究方向提供了关键数据支撑，对提升全球语言技术的包容性具有深远影响。

当前挑战

Samanantar数据集面临的挑战主要体现在两大维度。在领域问题层面，印度语言因其复杂的形态变化、多样的书写系统及方言变体，为机器翻译模型的语义对齐与泛化能力带来严峻考验；同时，低资源语言如阿萨姆语、奥里亚语的数据规模相对有限，可能导致模型性能不均衡。在构建过程中，研究团队需克服网络文本质量参差、文档扫描图像中的字符识别误差，以及从海量单语数据中精准挖掘平行句对的算法难题，这些因素均对语料库的规模扩展与质量保障构成了实质性障碍。

常用场景

经典使用场景

在机器翻译领域，Samanantar数据集作为目前规模最大的公开印度语言平行语料库，其经典应用场景在于训练和评估多语言神经机器翻译模型。该数据集涵盖了英语与11种印度语言之间的平行句对，为研究者提供了丰富的跨语言对齐资源，使得模型能够学习到从英语到多种印度语言的高质量翻译模式。通过利用这些大规模、多样化的语料，模型在翻译准确性和语言覆盖范围上均能获得显著提升，尤其对于资源相对匮乏的印度语言而言，该数据集填补了关键的数据空白。

实际应用

在实际应用中，Samanantar数据集为开发面向印度语言的多语言翻译服务提供了核心支持。基于该数据集训练的模型可集成到在线翻译平台、内容本地化工具以及跨语言信息检索系统中，帮助用户跨越语言障碍，访问教育、新闻、政府服务等多领域信息。例如，在数字内容创作、跨语言商务沟通以及多语言媒体传播等场景下，该数据集能够提升翻译的流畅性与文化适应性，促进印度语言在数字生态中的平等参与，具有显著的社会与经济价值。

衍生相关工作

围绕Samanantar数据集，已衍生出一系列重要的研究工作。例如，基于该数据训练的多语言神经机器翻译模型在FLORES等公开基准测试中超越了先前模型，展示了其数据有效性。此外，该数据集还支撑了针对印度语言的多语言表示学习、跨语言迁移学习以及低资源翻译方法的研究。相关成果进一步推动了如IndicTrans等开源翻译模型的开发，并为后续构建更广泛的印度语言NLP资源库（如词汇库、语法分析工具）提供了数据基础，形成了以数据驱动为核心的印度语言技术研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集