five

mteb/IN22-Gen

收藏
Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/IN22-Gen
下载链接
链接失效反馈
官方服务:
资源简介:
IN22-Gen是一个用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能的综合基准。该数据集包含1024个句子,涵盖了新闻、娱乐、文化、法律和印度相关主题等多个领域。数据来源于Wikipedia和Web Sources,分为512个来自Web Sources和512个来自Wikipedia的句子。数据集的结构包括id、context、source、url、domain、num_words、bucket和sentence等字段。

IN22-Gen是一个用于评估22种印度语言在多领域、多方向并行上下文中的机器翻译性能的综合基准。该数据集包含1024个句子,涵盖了新闻、娱乐、文化、法律和印度相关主题等多个领域。数据来源于Wikipedia和Web Sources,分为512个来自Web Sources和512个来自Wikipedia的句子。数据集的结构包括id、context、source、url、domain、num_words、bucket和sentence等字段。
提供机构:
mteb
原始信息汇总

数据集概述

基本信息

  • 名称: IN22-Gen
  • 语言: 包含22种印度语言,如Assamese (asm_Beng), Bengali (ben_Beng), English (eng_Latn) 等。
  • 许可证: cc-by-4.0
  • 语言创造者: 专家生成
  • 多语言性: 多语言及翻译
  • 大小: 1K<n<10K
  • 任务类别: 翻译

数据集内容

  • 来源: 数据集内容来源于Wikipedia和Web Sources,涵盖新闻、娱乐、文化、法律和印度特定主题。
  • 结构: 包含1024个句子,翻译成22种印度语言,支持506个翻译方向的评估。

数据集结构

  • 字段:
    • id: 数据条目的行号,从1开始。
    • context: 上下文窗口,通常包括候选句子前后各一个句子。
    • source: 候选句子的来源。
    • url: 英文文章的URL,仅适用于从Wikipedia提取的候选句子。
    • domain: 句子的领域。
    • num_words: 候选句子中的单词数量。
    • bucket: 根据预定义的桶类别对候选句子进行分类。
    • sentence: 特定语言的完整句子。

使用说明

  • 数据集可通过load_dataset函数加载,支持加载所有语言对或特定语言对。

引用信息

  • 引用格式请参考提供的引用模板。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作