mteb/IN22-Conv
收藏Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/IN22-Conv
下载链接
链接失效反馈官方服务:
资源简介:
IN22-Conv是一个新创建的综合性基准数据集,用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能。该数据集专注于对话领域,旨在评估日常对话风格应用中的翻译质量。数据集包含1503个句子,分布在多个领域,如爱好、日常对话、政府、地理等。数据集的结构包括多个字段,如id、doc_id、sent_id、topic、domain等,并且提供了示例对话和使用说明。
IN22-Conv是一个新创建的综合性基准数据集,用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能。该数据集专注于对话领域,旨在评估日常对话风格应用中的翻译质量。数据集包含1503个句子,分布在多个领域,如爱好、日常对话、政府、地理等。数据集的结构包括多个字段,如id、doc_id、sent_id、topic、domain等,并且提供了示例对话和使用说明。
提供机构:
mteb
原始信息汇总
数据集概述
数据集名称
- 名称: IN22-Conv
- 描述: IN22-Conv是IN22数据集的对话领域子集,专为评估22种印度语言在日常对话风格应用中的机器翻译质量而设计。
数据集内容
- 语言: 包含22种印度语言,如Assamese, Bengali, Dogri, English等。
- 语言细节: 每种语言都指定了特定的书写系统,如Assamese使用Bengali书写系统(asm_Beng)。
- 许可证: CC-BY-4.0
- 语言创建者: 专家生成
- 多语言性: 多语言和翻译
- 大小: 包含1503个句子,适用于1K<n<10K的规模分类。
- 任务类别: 翻译
数据集结构
- 数据字段:
id: 数据条目的行号,从1开始。doc_id: 对话的唯一标识符。sent_id: 每段对话中句子的唯一标识符。topic: 对话在特定领域内的具体话题。domain: 对话的领域。prompt: 提供给注释者以模拟对话的提示。scenario: 对话发生的情况或上下文。speaker: 对话中的说话者标识符。turn: 对话中的轮次。
数据实例
- 示例展示了英语配置(eng_Latn)的数据结构,所有配置和分割的句子结构相同,且相互对齐。
数据集使用
- 数据集可用于句子级别的机器翻译系统评估,也可重新用于文档翻译评估。
领域分布
- 数据集涵盖多个领域,如爱好、日常对话、政府、地理等,每个领域的句子数量不同。
引用信息
- 使用该数据集时,应引用相关研究论文。



