five

ai4bharat/IN22-Conv

收藏
Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/IN22-Conv
下载链接
链接失效反馈
官方服务:
资源简介:
IN22-Conv是一个新创建的综合性基准数据集,用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能。该数据集是IN22的对话领域子集,旨在评估日常对话风格应用中的翻译质量。评估子集包含1503个句子,支持506种翻译方向的评估。数据集结构包括多个字段,如id、doc_id、sent_id、topic、domain、prompt、scenario、speaker和turn,并提供了数据实例和样本对话。
提供机构:
ai4bharat
原始信息汇总

IN22-Conv 数据集概述

数据集基本信息

  • 语言:
    • 阿萨姆语 (as)
    • 孟加拉语 (bn)
    • 博多语 (brx)
    • 多格里语 (doi)
    • 英语 (en)
    • 孔卡尼语 (gom)
    • 古吉拉特语 (gu)
    • 印地语 (hi)
    • 卡纳达语 (kn)
    • 克什米尔语 (ks)
    • 迈蒂利语 (mai)
    • 马拉雅拉姆语 (ml)
    • 马拉地语 (mr)
    • 曼尼普尔语 (mni)
    • 尼泊尔语 (ne)
    • 奥里亚语 (or)
    • 旁遮普语 (pa)
    • 梵语 (sa)
    • 桑塔利语 (sat)
    • 信德语 (sd)
    • 泰米尔语 (ta)
    • 泰卢固语 (te)
    • 乌尔都语 (ur)
  • 语言详细信息:
    • asm_Beng, ben_Beng, brx_Deva, doi_Deva, eng_Latn, gom_Deva, guj_Gujr, hin_Deva, kan_Knda, kas_Arab, mai_Deva, mal_Mlym, mar_Deva, mni_Mtei, npi_Deva, ory_Orya, pan_Guru, san_Deva, sat_Olck, snd_Deva, tam_Taml, tel_Telu, urd_Arab
  • 许可证: cc-by-4.0
  • 语言创建者: 专家生成
  • 多语言性: 多语言、翻译
  • 数据集名称: in22-conv
  • 数据集大小: 1K<n<10K
  • 任务类别: 翻译

数据集描述

IN22-Conv 是 IN22 的一个子集,专门用于评估日常对话风格应用中的翻译质量。该评估子集包含 1503 个句子,跨越 22 种印度语言,可用于评估 506 个方向的机器翻译系统。

数据集结构

数据字段

  • id: 数据条目的行号,从 1 开始。
  • doc_id: 对话的唯一标识符。
  • sent_id: 对话中句子顺序的唯一标识符。
  • topic: 对话的具体主题。
  • domain: 对话的领域。
  • prompt: 提供给注释者以模拟对话的提示。
  • scenario: 对话发生的场景或上下文。
  • speaker: 对话中的说话者标识符。
  • turn: 对话中的轮次。

数据实例

以下是一个来自 gen 分割的英语语言 (eng_Latn 配置) 的样本。所有配置具有相同的结构,所有句子在配置和分割之间对齐。

python { "id": 1, "doc_id": 0, "sent_id": 1, "topic": "Festivities", "domain": "culture", "prompt": "14th April a holiday", "scenario": "Historical importance", "speaker": 1, "turn": 1, "sentence": "Mom, lets go for a movie tomorrow." }

使用说明

python from datasets import load_dataset

下载并加载所有配对

dataset = load_dataset("ai4bharat/IN22-Conv", "all")

下载并加载特定配对

dataset = load_dataset("ai4bharat/IN22-Conv", "eng_Latn-hin_Deva")

涵盖的语言

  • 阿萨姆语 (asm_Beng)
  • 孟加拉语 (ben_Beng)
  • 博多语 (brx_Deva)
  • 多格里语 (doi_Deva)
  • 英语 (eng_Latn)
  • 孔卡尼语 (gom_Deva)
  • 古吉拉特语 (guj_Gujr)
  • 印地语 (hin_Deva)
  • 卡纳达语 (kan_Knda)
  • 克什米尔语 (kas_Arab)
  • 迈蒂利语 (mai_Deva)
  • 马拉雅拉姆语 (mal_Mlym)
  • 马拉地语 (mar_Deva)
  • 曼尼普尔语 (mni_Mtei)
  • 尼泊尔语 (npi_Deva)
  • 奥里亚语 (ory_Orya)
  • 旁遮普语 (pan_Guru)
  • 梵语 (san_Deva)
  • 桑塔利语 (sat_Olck)
  • 信德语 (snd_Deva)
  • 泰米尔语 (tam_Taml)
  • 泰卢固语 (tel_Telu)
  • 乌尔都语 (urd_Arab)

引用

如果使用该数据集,请引用以下内容:

@article{gala2023indictrans, title={IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages}, author={Jay Gala and Pranjal A Chitale and A K Raghavan and Varun Gumma and Sumanth Doddapaneni and Aswanth Kumar M and Janki Atul Nawale and Anupama Sujatha and Ratish Puduppully and Vivek Raghavan and Pratyush Kumar and Mitesh M Khapra and Raj Dabre and Anoop Kunchukuttan}, journal={Transactions on Machine Learning Research}, issn={2835-8856}, year={2023}, url={https://openreview.net/forum?id=vfT4YuzAYA}, note={} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作