mteb/IN22-Conv

Name: mteb/IN22-Conv
Creator: mteb
Published: 2025-05-04 16:08:53
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mteb/IN22-Conv

下载链接

链接失效反馈

官方服务：

资源简介：

IN22-Conv是一个新创建的综合性基准数据集，用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能。该数据集专注于对话领域，旨在评估日常对话风格应用中的翻译质量。数据集包含1503个句子，分布在多个领域，如爱好、日常对话、政府、地理等。数据集的结构包括多个字段，如id、doc_id、sent_id、topic、domain等，并且提供了示例对话和使用说明。

提供机构：

mteb

原始信息汇总

数据集概述

数据集名称

名称: IN22-Conv
描述: IN22-Conv是IN22数据集的对话领域子集，专为评估22种印度语言在日常对话风格应用中的机器翻译质量而设计。

数据集内容

语言: 包含22种印度语言，如Assamese, Bengali, Dogri, English等。
语言细节: 每种语言都指定了特定的书写系统，如Assamese使用Bengali书写系统（asm_Beng）。
许可证: CC-BY-4.0
语言创建者: 专家生成
多语言性: 多语言和翻译
大小: 包含1503个句子，适用于1K<n<10K的规模分类。
任务类别: 翻译

数据集结构

数据字段:
- id: 数据条目的行号，从1开始。
- doc_id: 对话的唯一标识符。
- sent_id: 每段对话中句子的唯一标识符。
- topic: 对话在特定领域内的具体话题。
- domain: 对话的领域。
- prompt: 提供给注释者以模拟对话的提示。
- scenario: 对话发生的情况或上下文。
- speaker: 对话中的说话者标识符。
- turn: 对话中的轮次。

数据实例

示例展示了英语配置（eng_Latn）的数据结构，所有配置和分割的句子结构相同，且相互对齐。

数据集使用

数据集可用于句子级别的机器翻译系统评估，也可重新用于文档翻译评估。

领域分布

数据集涵盖多个领域，如爱好、日常对话、政府、地理等，每个领域的句子数量不同。

引用信息

使用该数据集时，应引用相关研究论文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集