five

mteb/IN22-Conv

收藏
Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/IN22-Conv
下载链接
链接失效反馈
官方服务:
资源简介:
IN22-Conv是一个新创建的综合性基准数据集,用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能。该数据集专注于对话领域,旨在评估日常对话风格应用中的翻译质量。数据集包含1503个句子,分布在多个领域,如爱好、日常对话、政府、地理等。数据集的结构包括多个字段,如id、doc_id、sent_id、topic、domain等,并且提供了示例对话和使用说明。

IN22-Conv是一个新创建的综合性基准数据集,用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能。该数据集专注于对话领域,旨在评估日常对话风格应用中的翻译质量。数据集包含1503个句子,分布在多个领域,如爱好、日常对话、政府、地理等。数据集的结构包括多个字段,如id、doc_id、sent_id、topic、domain等,并且提供了示例对话和使用说明。
提供机构:
mteb
原始信息汇总

数据集概述

数据集名称

  • 名称: IN22-Conv
  • 描述: IN22-Conv是IN22数据集的对话领域子集,专为评估22种印度语言在日常对话风格应用中的机器翻译质量而设计。

数据集内容

  • 语言: 包含22种印度语言,如Assamese, Bengali, Dogri, English等。
  • 语言细节: 每种语言都指定了特定的书写系统,如Assamese使用Bengali书写系统(asm_Beng)。
  • 许可证: CC-BY-4.0
  • 语言创建者: 专家生成
  • 多语言性: 多语言和翻译
  • 大小: 包含1503个句子,适用于1K<n<10K的规模分类。
  • 任务类别: 翻译

数据集结构

  • 数据字段:
    • id: 数据条目的行号,从1开始。
    • doc_id: 对话的唯一标识符。
    • sent_id: 每段对话中句子的唯一标识符。
    • topic: 对话在特定领域内的具体话题。
    • domain: 对话的领域。
    • prompt: 提供给注释者以模拟对话的提示。
    • scenario: 对话发生的情况或上下文。
    • speaker: 对话中的说话者标识符。
    • turn: 对话中的轮次。

数据实例

  • 示例展示了英语配置(eng_Latn)的数据结构,所有配置和分割的句子结构相同,且相互对齐。

数据集使用

  • 数据集可用于句子级别的机器翻译系统评估,也可重新用于文档翻译评估。

领域分布

  • 数据集涵盖多个领域,如爱好、日常对话、政府、地理等,每个领域的句子数量不同。

引用信息

  • 使用该数据集时,应引用相关研究论文。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作