google/IndicGenBench_crosssum_in
收藏数据集概述
名称: CrossSum-IN
发布目的: 作为论文 "IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages" 的一部分,用于评估大型语言模型(LLMs)在印度语言上的生成能力。
数据集详情
数据集结构
- 字段:
text: 需要总结的英文段落。summary: 根据lang字段指定的语言对段落进行总结。lang: 目标语言的代码,summary字段使用该语言。
数据集实例
json { lang: as, source_url: https://www.bbc.com/news/technology-39193008, summary: Wikileaksএ এনে কিছু সবিশেষ প্ৰকাশ কৰিছে, যিবোৰ ইয়াৰ মতে এইবোৰ হৈছে চিআইএৰ দ্বাৰা ব্যৱহৃত বিস্তৃত পৰিসৰৰ হেকিং সঁজুলি।, target_url: https://www.bbc.com/news/technology-39193008, text: By Leo KelionTechnology desk editor The alleged cyber-weapons are said to include malware that targets Windows, Android, iOS, OSX and Linux computers as well as internet routers. Some of the software is "Reported [...TRUNCATED…]." }
支持的语言
| 语言 | 代码 | 脚本 | 家族 |
|---|---|---|---|
| 孟加拉语 | bn |
孟加拉 | 印欧语系 |
| 古吉拉特语 | gu |
古吉拉特 | 印欧语系 |
| 印地语 | hi |
天城文 | 印欧语系 |
| 卡纳达语 | kn |
卡纳达 | 达罗毗荼语系 |
| 马拉雅拉姆语 | ml |
马拉雅拉姆 | 达罗毗荼语系 |
| 马拉地语 | mr |
天城文 | 印欧语系 |
| 泰米尔语 | ta |
泰米尔 | 达罗毗荼语系 |
| 泰卢固语 | te |
泰卢固 | 达罗毗荼语系 |
| 乌尔都语 | ur |
阿拉伯 | 印欧语系 |
| ... | ... | ... | ... |
数据集使用
直接用途: 适用于评估任何大型语言模型(LLM)。
注意事项: 不应将此数据集用于LLM的预训练。
数据集创建
来源数据: 扩展了现有的跨语言总结(CrossSum)、机器翻译(FLORES)、多语言问答(XQuAD)和跨语言问答(XorQA)数据集,通过收集英语示例到目标印度语言的人工翻译。
注释过程: 使用专业注释者收集29种印度语言的翻译,确保注释者是母语使用者,并具有流利的英语知识。
引用信息
bibtex @misc{singh2024indicgenbench, title={IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages}, author={Harman Singh and Nitish Gupta and Shikhar Bharadwaj and Dinesh Tewari and Partha Talukdar}, year={2024}, eprint={2404.16816}, archivePrefix={arXiv}, primaryClass={cs.CL} }




