five

google/IndicGenBench_flores_in

收藏
Hugging Face2024-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/google/IndicGenBench_flores_in
下载链接
链接失效反馈
官方服务:
资源简介:
IndicGenBench是一个多语言、多任务并行的基准数据集,用于评估大型语言模型(LLMs)在29种印度语言上的生成能力。这些语言涵盖了13种书写系统和4种语言家族。数据集的结构包括源句子、目标句子、翻译方向和语言代码等字段。数据集的主要用途是评估LLMs的生成能力,但不应用于LLMs的预训练。数据集的创建过程包括从现有数据集中扩展并收集人工翻译的印度语言数据。注释过程详细描述了如何招募和验证注释者,并确保翻译的质量。

IndicGenBench是一个多语言、多任务并行的基准数据集,用于评估大型语言模型(LLMs)在29种印度语言上的生成能力。这些语言涵盖了13种书写系统和4种语言家族。数据集的结构包括源句子、目标句子、翻译方向和语言代码等字段。数据集的主要用途是评估LLMs的生成能力,但不应用于LLMs的预训练。数据集的创建过程包括从现有数据集中扩展并收集人工翻译的印度语言数据。注释过程详细描述了如何招募和验证注释者,并确保翻译的质量。
提供机构:
google
原始信息汇总

数据集概述

名称: Flores-IN

发布目的: 作为 "IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages" 论文的一部分,用于评估大型语言模型(LLMs)在29种印度语言上的生成能力。

数据集详细信息

概览: IndicGenBench 是一个多语言、多向平行基准,用于衡量跨29种印度语言、13种书写系统和4种语言家族的多样化用户面向任务的语言生成能力。

数据集结构:

  • 文件: 包含 *_dev.py 和 *_test.py 文件,对应于原始 flores 机器翻译数据集的 *_dev.py 和 *_devtest.py 文件。
  • 字段:
    • source: 需要翻译的源句子。
    • target: 将 "source" 翻译成 "lang" 语言代码指定的语言后的目标句子。
    • translation_direction: 可以是 "xxen" 或 "enxx"。
    • lang: 语言代码,根据 translation_direction 的不同,表示源语言或目标语言。

支持的语言:

  • 包括但不限于 Bengali (bn), Gujarati (gu), Hindi (hi), Kannada (kn), Malayalam (ml), Marathi (mr), Tamil (ta), Telugu (te), Urdu (ur) 等29种印度语言。

许可: cc-by-sa-4.0

数据集大小: 10K<n<100K

数据集使用说明

  • 加载数据集并打印验证集的前5个示例的代码示例: python dataset = load_dataset(google/IndicGenBench_flores_in, field="examples") for i, batch in enumerate(dataset[validation]): pprint(batch) if i==4: break

数据集来源

  • 仓库: https://github.com/google-research-datasets/indic-gen-bench/
  • 论文: https://arxiv.org/abs/2404.16816
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作