cfilt/iitb-english-hindi
收藏Hugging Face2023-12-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cfilt/iitb-english-hindi
下载链接
链接失效反馈官方服务:
资源简介:
IIT Bombay英语-印地语语料库包含了英语-印地语的平行语料库以及单语印地语语料库,这些语料库来源于印度语言技术中心(IIT Bombay)多年来收集的各种现有资源和语料库。该语料库自2016年起在亚洲语言翻译共享任务中用于英语-印地语和印地语-英语的语言对,并作为印地语-日语和日语-印地语语言对的枢轴语言对。语料库的详细信息可通过提供的URL获取,并且可以通过同一URL进行浏览器下载。此外,还提供了单语印地语语料库。
IIT Bombay英语-印地语语料库包含了英语-印地语的平行语料库以及单语印地语语料库,这些语料库来源于印度语言技术中心(IIT Bombay)多年来收集的各种现有资源和语料库。该语料库自2016年起在亚洲语言翻译共享任务中用于英语-印地语和印地语-英语的语言对,并作为印地语-日语和日语-印地语语言对的枢轴语言对。语料库的详细信息可通过提供的URL获取,并且可以通过同一URL进行浏览器下载。此外,还提供了单语印地语语料库。
提供机构:
cfilt
原始信息汇总
IITB-English-Hindi Parallel Corpus 概述
数据集描述
- 名称: IITB-English-Hindi Parallel Corpus
- 内容: 包含英语-印地语平行语料库以及单语印地语语料库,数据来源于多种现有资源和印度理工学院孟买分校印度语言技术中心多年来开发的语料库。
- 用途: 自2016年起用于亚洲语言翻译工作坊的印地语-英语和英语-印地语语言对,以及作为印地语-日语和日语-印地语语言对的转换语言对。
数据集详情
- 完整详情: 可访问 此URL 获取。
- 下载方式: 通过浏览器从上述URL下载平行语料库和单语印地语语料库。
最近更新
- 版本 3.1: 2021年12月,增加了49,400个句子对到平行语料库。
- 版本 3.0: 2020年8月,增加了约47,000个句子对到平行语料库。
使用示例
- 教程: 提供了一个笔记本,展示如何从HuggingFace数据集仓库导入IITB英语-印地语平行语料库,并使用BPE分词进行语料库分段,用于训练英语-印地语机器翻译系统。
- 教程链接: IITB-English-Hindi-PC
维护者
- Diptesh Kanojia
- Shivam Mhasker
引用信息
- 引用格式: latex @inproceedings{kunchukuttan-etal-2018-iit, title = "The {IIT} {B}ombay {E}nglish-{H}indi Parallel Corpus", author = "Kunchukuttan, Anoop and Mehta, Pratik and Bhattacharyya, Pushpak", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://aclanthology.org/L18-1548", }
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是IIT Bombay开发的英语-印地语平行语料库,包含约166万句对,规模在1M到10M之间,格式为parquet。它由印度语言技术中心从多种来源收集,自2016年起用于亚洲语言翻译共享任务,并持续更新,适用于训练英语-印地语机器翻译系统。
以上内容由遇见数据集搜集并总结生成



