five

google/IndicGenBench_crosssum_in

收藏
Hugging Face2024-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/google/IndicGenBench_crosssum_in
下载链接
链接失效反馈
官方服务:
资源简介:
IndicGenBench数据集,特别是其子集CrossSum-IN,是一个多语言、多任务并行基准测试,旨在评估大型语言模型(LLMs)在29种印度语言上的生成能力。该数据集涵盖了13种书写系统和4种语言家族,包括孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、泰卢固语、乌尔都语、阿萨姆语、博杰普尔语、尼泊尔语、奥里亚语、旁遮普语、普什图语、梵语、阿瓦德语、哈里亚纳语、藏语、博多语、加瓦尔语、孔卡尼语、恰蒂斯加尔语、拉贾斯坦语、迈蒂利语、曼尼普尔语、马尔维语、马尔瓦里语和桑塔利语。数据集的结构包括文本、摘要和语言代码字段,每个实例包含一个英文段落及其在目标语言中的摘要。数据集的使用场景主要是评估LLMs的生成能力,但不应用于LLMs的预训练。数据集的创建过程涉及专业注释员对英文示例进行人工翻译,并经过严格的质量检查。

IndicGenBench数据集,特别是其子集CrossSum-IN,是一个多语言、多任务并行基准测试,旨在评估大型语言模型(LLMs)在29种印度语言上的生成能力。该数据集涵盖了13种书写系统和4种语言家族,包括孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、泰卢固语、乌尔都语、阿萨姆语、博杰普尔语、尼泊尔语、奥里亚语、旁遮普语、普什图语、梵语、阿瓦德语、哈里亚纳语、藏语、博多语、加瓦尔语、孔卡尼语、恰蒂斯加尔语、拉贾斯坦语、迈蒂利语、曼尼普尔语、马尔维语、马尔瓦里语和桑塔利语。数据集的结构包括文本、摘要和语言代码字段,每个实例包含一个英文段落及其在目标语言中的摘要。数据集的使用场景主要是评估LLMs的生成能力,但不应用于LLMs的预训练。数据集的创建过程涉及专业注释员对英文示例进行人工翻译,并经过严格的质量检查。
提供机构:
google
原始信息汇总

数据集概述

名称: CrossSum-IN

发布目的: 作为论文 "IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages" 的一部分,用于评估大型语言模型(LLMs)在印度语言上的生成能力。

数据集详情

数据集结构

  • 字段:
    • text: 需要总结的英文段落。
    • summary: 根据lang字段指定的语言对段落进行总结。
    • lang: 目标语言的代码,summary字段使用该语言。

数据集实例

json { lang: as, source_url: https://www.bbc.com/news/technology-39193008, summary: Wikileaksএ এনে কিছু সবিশেষ প্ৰকাশ কৰিছে, যিবোৰ ইয়াৰ মতে এইবোৰ হৈছে চিআইএৰ দ্বাৰা ব্যৱহৃত বিস্তৃত পৰিসৰৰ হেকিং সঁজুলি।, target_url: https://www.bbc.com/news/technology-39193008, text: By Leo KelionTechnology desk editor The alleged cyber-weapons are said to include malware that targets Windows, Android, iOS, OSX and Linux computers as well as internet routers. Some of the software is "Reported [...TRUNCATED…]." }

支持的语言

语言 代码 脚本 家族
孟加拉语 bn 孟加拉 印欧语系
古吉拉特语 gu 古吉拉特 印欧语系
印地语 hi 天城文 印欧语系
卡纳达语 kn 卡纳达 达罗毗荼语系
马拉雅拉姆语 ml 马拉雅拉姆 达罗毗荼语系
马拉地语 mr 天城文 印欧语系
泰米尔语 ta 泰米尔 达罗毗荼语系
泰卢固语 te 泰卢固 达罗毗荼语系
乌尔都语 ur 阿拉伯 印欧语系
... ... ... ...

数据集使用

直接用途: 适用于评估任何大型语言模型(LLM)。

注意事项: 不应将此数据集用于LLM的预训练。

数据集创建

来源数据: 扩展了现有的跨语言总结(CrossSum)、机器翻译(FLORES)、多语言问答(XQuAD)和跨语言问答(XorQA)数据集,通过收集英语示例到目标印度语言的人工翻译。

注释过程: 使用专业注释者收集29种印度语言的翻译,确保注释者是母语使用者,并具有流利的英语知识。

引用信息

bibtex @misc{singh2024indicgenbench, title={IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages}, author={Harman Singh and Nitish Gupta and Shikhar Bharadwaj and Dinesh Tewari and Partha Talukdar}, year={2024}, eprint={2404.16816}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言摘要研究领域,构建高质量的多语言数据集对于评估模型在低资源语言上的生成能力至关重要。IndicGenBench_crosssum_in数据集的构建基于现有CrossSum数据集,通过专业人工翻译的方式将英文原文段落扩展至29种印度语言。具体而言,研究团队招募了每种语言3至5名母语者作为标注员,这些标注员不仅精通目标语言的读写,还具备专业英语水平以确保对原文的准确理解。标注过程遵循严格的质控流程,包括初始翻译质量检查与同行评审验证,从而确保了翻译摘要的语言准确性与文化适应性。数据集最终形成了多路平行语料,每条数据包含英文原文、目标语言摘要及对应的语言代码。
特点
该数据集在跨语言摘要任务中展现出鲜明的多语言与多脚本特性,覆盖了29种印度语言,涉及13种书写系统和4个语系,语言多样性极为丰富。其核心特点在于所有语言对均共享同一组英文原文,形成了严格的多路平行结构,这为系统评估模型在不同语言间的生成一致性提供了理想基准。数据规模介于一万至十万条之间,兼顾了覆盖面与可管理性。此外,数据集附有明确的使用限制标识,旨在防止其被误用于模型预训练,从而保障其作为评估基准的纯净性。这种设计使其成为衡量大语言模型在复杂多语言环境下摘要生成能力的权威工具。
使用方法
该数据集主要用于评估大语言模型在印度语言上的跨语言摘要生成能力。研究人员可通过Hugging Face的`load_dataset`函数加载`google/IndicGenBench_crosssum_in`数据集,并指定`field`参数为`examples`以获取数据实例。加载后,数据集通常包含验证集等标准划分,用户可遍历这些实例以进行分析或评估。典型的应用流程包括:加载数据、提取英文原文`text`字段与对应目标语言的`summary`字段,随后将其输入待测模型以生成摘要,并通过与人工翻译的参考摘要进行对比来计算自动评估指标。需严格遵守数据许可协议,确保该基准数据仅用于评估目的,不纳入任何形式的模型训练数据中。
背景与挑战
背景概述
在自然语言处理领域,多语言生成能力的评估一直是推动技术普惠的关键议题。谷歌于2024年发布的IndicGenBench_crosssum_in数据集,作为IndicGenBench基准的重要组成部分,专注于跨语言摘要任务,旨在系统评估大型语言模型在29种印度语言上的生成性能。该数据集由谷歌研究院主导构建,核心研究问题在于解决印度语言资源稀缺背景下,模型多语言理解和生成能力的标准化测评难题。通过扩展已有的CrossSum数据集,并引入专业人工翻译,该工作显著丰富了印度语言的平行语料库,对促进南亚地区语言技术的公平发展与学术研究具有深远影响。
当前挑战
该数据集致力于应对跨语言摘要任务中的核心挑战,即如何使模型能够准确理解英语原文,并生成符合印度语言语法、文化语境的高质量摘要。印度语言在书写系统、句法结构和词汇资源上差异显著,这要求模型具备深度的跨语言迁移与适应能力。在构建过程中,挑战主要集中于大规模高质量标注资源的获取。为确保翻译的准确性与语言的地道性,研究团队需招募并严格筛选精通英语及目标印度语言的双语标注者,同时设计严谨的同行评审流程以控制标注质量。此外,协调多种语言家族与文字脚本的标注规范,并在合规前提下支付具有市场竞争力的报酬,亦是数据集构建中面临的实际操作难题。
常用场景
经典使用场景
在跨语言摘要研究领域,IndicGenBench_crosssum_in数据集为评估大语言模型在印度语言上的生成能力提供了标准化基准。该数据集的核心应用场景在于,研究者利用其英语原文与29种印度语言摘要的平行对应关系,系统性地测试模型从英语到多种印度语言的跨语言摘要生成性能。通过对比模型生成的摘要与人工翻译的参考摘要,能够精确量化模型在语言转换、信息压缩及文化适配等方面的综合表现。
解决学术问题
该数据集有效解决了多语言自然语言处理中资源匮乏语言评估标准缺失的学术难题。传统上,针对印度诸语言的生成任务研究常受限于高质量平行语料的稀缺,IndicGenBench通过构建大规模、多向平行语料,为衡量模型在低资源语言上的真实能力提供了可靠依据。其意义在于推动了生成模型评估的公平性与全面性,促使研究社区关注非主流语言的性能表现,对促进语言技术的包容性发展产生了深远影响。
衍生相关工作
围绕IndicGenBench数据集,已衍生出一系列聚焦于多语言生成模型评估与优化的经典研究工作。这些工作不仅包括对现有大型语言模型在印度语言上进行系统性评测的基准研究,还催生了针对跨语言摘要任务的新型模型架构与微调策略的探索。例如,研究者利用该数据集分析模型在不同语系和文字系统间的性能差异,进而提出了针对特定语言家族的适配性增强方法,推动了多语言生成技术的精细化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作