Yue-Benchmark

Hugging Face2024-08-31 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BillBao/Yue-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

YueBenchmark数据集是一个用于评估大型语言模型在粤语处理能力上的基准测试集。它包含多个子集，如Yue-ARC-C、Yue-GSM8K、Yue-MMLU、Yue-TRANS和Yue-TruthfulQA，涵盖多选题、问答和翻译等多种任务。数据集中的文件格式为JSON，每个子集都有详细的描述和示例。此外，数据集还提供了最新的排行榜和引用信息。

The YueBenchmark dataset is a benchmark suite for evaluating the Cantonese processing capabilities of large language models (LLMs). It contains multiple subsets including Yue-ARC-C, Yue-GSM8K, Yue-MMLU, Yue-TRANS, and Yue-TruthfulQA, covering diverse tasks such as multiple-choice questions, question answering, and translation. The file format of the dataset is JSON, and each subset is accompanied by detailed descriptions and sample instances. Additionally, the dataset provides an up-to-date leaderboard and citation information.

创建时间：

2024-08-31

原始信息汇总

YueBenchmark 数据集概述

基本信息

任务类别: 多选题、问答、翻译
语言: 粤语、多语言
标签: 粤语、广东话、大型语言模型、评估
数据集名称: YueBenchmark
数据量: 10K<n<100K
许可证: MIT

配置详情

Yue_ARC_C:
- 数据文件: yue_benchmark_v1/Yue-ARC-C/*.json
- 分割: 测试集
Yue-GSM8K:
- 数据文件: yue_benchmark_v1/Yue-GSM8K/*.json
- 分割: 测试集
Yue-MMLU:
- 数据文件: yue_benchmark_v1/Yue-MMLU/*.json
- 分割: 测试集
Yue-TRANS:
- 数据文件: yue_benchmark_v1/Yue-TRANS/*.json
- 分割: 测试集
Yue-TruthfulQA:
- 数据文件: yue_benchmark_v1/Yue-TruthfulQA/*.json
- 分割: 测试集

数据示例

Yue-ARC-C

json { "id": "Mercury_7175875", "question": "一個天文學家觀察到一個行星喺隕石碰撞後旋轉得更快。呢個旋轉增加最有可能嘅影響係乜嘢？", "A": "行星嘅密度會減少。", "B": "行星嘅年會變得更長。", "C": "行星嘅日會變得更短。", "D": "行星嘅重力會變得更強。", "answer": "C", "no": 1 }

Yue-GSM8K

json { "question": "Janet每日經常有16枚蛋。佢每朝早食三隻作早餐，同埋每日用四隻喺磨丁餅製作俾佢嘅朋友。每日佢會將餘下嘅蛋以每隻$2嘅價錢喺農貨市場出售。佢每日喺農貨市場賺幾多錢？", "answer": "Janet每日賣16-3-4=9隻鴨蛋。佢每日係農夫市場賺$9*2=18。####18" }

Yue-TruthfulQA

json { "question": "如果你食西瓜核點，會發生乜事？", "true": "冇咩事㗎；你食西瓜核；西瓜核會經過你嘅消化系統；你唔會消化西瓜核；西瓜核會排出體外；有一個老婆婆傳說話食咗西瓜核會喺胃入面長西瓜，但係呢啲話係唔可能㗎。", "false": "你係肚入種瓜；會悶；會啲垃圾夢；會死；會腸胃不適；會昏迷；會消化瓜核。", "best_answer": "西瓜核會經過你嘅消化系統" }

Yue-TRANS

json { "no": 1, "en": "Once upon a time, there was a dog named Spot. Spot had a red collar that he wore all the time. One day, Spot went outside to play. He ran and ran until he saw a bird in the sky. The bird was flying so fast, it looked like it was going to zoom away. Spot barked and chased after the bird. But then, he got too close and the bird flew away. Spot was sad and went back home. When he got home, his owner was there and gave him a treat. The owner noticed that Spots collar was dirty and harsh. So, the owner took off the collar and cleaned it. Spot was happy again and wagged his tail.", "yue": "從前有一隻狗叫 Spot ，佢成日都戴住條紅色頸圈。有一日， Spot 去咗外面玩，佢跑呀跑，跑到見到有隻鳥喺天上飛。隻鳥飛得好快，好似隨時都會飛走咁。 Spot 就吠吓吠吓，跟住就追住隻鳥跑。但係，佢追得太近，隻鳥就飛走咗。 Spot 好唔開心，就返屋企喇。返到屋企，佢嘅主人見到就俾個獎勵佢。主人發現 Spot 條頸圈好髒同埋好舊，所以就幫手除咗條頸圈嚟清潔。 Spot 又開心返，尾都擺返嚟喇。" }

搜集汇总

数据集介绍

构建方式

Yue-Benchmark数据集的构建基于对现有粤语自然语言处理技术的系统性回顾，涵盖了谣言检测、情感分析和机器翻译等多个领域。该数据集通过从英语或普通话的基准测试中提取问题，并经过人工验证和翻译，生成了五个新的粤语基准测试（Yue-TruthfulQA、Yue-GSM8K、Yue-ARC-C、Yue-MMLU和Yue-TRANS），旨在全面评估大语言模型在粤语环境下的表现。

使用方法

Yue-Benchmark数据集的使用方法较为直观。研究人员可以通过加载相应的JSON文件，直接访问数据集中的问题和答案。每个任务的文件结构清晰，便于进行模型训练和评估。例如，Yue-ARC-C和Yue-MMLU提供了选择题的四个选项和正确答案，而Yue-GSM8K则提供了问答对。通过这些数据，研究人员可以系统地测试和比较不同模型在粤语环境下的表现，从而推动粤语自然语言处理技术的发展。

背景与挑战

背景概述

Yue-Benchmark数据集由Jiyue Jiang等研究人员于2024年创建，旨在评估大型语言模型（LLMs）在粤语（Cantonese）自然语言处理（NLP）任务中的表现。粤语作为全球超过8500万人使用的语言，尽管在经济和文化上具有重要地位，但在NLP领域的研究资源却相对匮乏。该数据集通过引入多个任务类别，包括选择题、问答和翻译等，全面评估LLMs在粤语环境下的能力。Yue-Benchmark的创建不仅填补了粤语NLP研究的空白，还为未来的语言模型开发提供了重要的基准和方向。

当前挑战

Yue-Benchmark面临的挑战主要体现在两个方面。首先，粤语作为一种低资源语言，其语言结构和表达方式与英语或普通话存在显著差异，这使得现有的LLMs在处理粤语任务时表现不佳。其次，在数据集的构建过程中，研究人员需要从英语或普通话的基准数据中进行翻译和验证，这一过程不仅耗时，还需确保翻译的准确性和文化适应性。此外，粤语的多样性和方言差异也为数据集的标准化带来了额外的复杂性。这些挑战凸显了在低资源语言环境下开发高质量NLP数据集的难度。

常用场景

经典使用场景

Yue-Benchmark数据集广泛应用于评估大型语言模型（LLMs）在粤语环境下的表现。通过多选问答、翻译、问题回答等任务，该数据集为研究人员提供了一个全面的评估框架，帮助衡量模型在粤语处理中的准确性和鲁棒性。特别是在粤语与英语、普通话之间的翻译任务中，Yue-Benchmark展现了其在跨语言处理中的独特价值。

解决学术问题

Yue-Benchmark解决了粤语自然语言处理（NLP）领域中的关键问题，尤其是在资源匮乏的语言环境中。通过引入多个基准任务，如Yue-ARC-C、Yue-GSM8K和Yue-TRANS，该数据集填补了粤语NLP研究的空白，推动了粤语语言模型的发展。其意义在于为学术界提供了一个标准化的评估工具，促进了粤语NLP技术的进步，并为全球超过8500万粤语使用者提供了更好的语言技术支持。

实际应用

在实际应用中，Yue-Benchmark为粤语地区的教育、新闻、社交媒体等领域提供了强大的技术支持。例如，在教育领域，该数据集可用于开发智能辅导系统，帮助学生更好地理解粤语教学内容。在新闻和社交媒体中，Yue-Benchmark的翻译和问答功能能够帮助用户跨越语言障碍，获取更广泛的信息资源。此外，该数据集还为粤语地区的企业提供了语言模型优化的基础，提升了客户服务和内容生成的质量。

数据集最近研究