Stopwolf/EQ-Bench-Serbian
收藏Hugging Face2024-05-22 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Stopwolf/EQ-Bench-Serbian
下载链接
链接失效反馈官方服务:
资源简介:
EQ-Bench-Serbian是一个用于评估语言模型情商的基准数据集。该数据集是基于英语EQ-Bench的翻译版本,主要用于塞尔维亚语,但也适用于波斯尼亚语和克罗地亚语。数据集通过OpenAI的GPT-3.5-turbo模型进行翻译,并经过人工清理和校正。该数据集旨在评估不同语言模型在处理塞尔维亚语时的情商表现。
提供机构:
Stopwolf
原始信息汇总
EQ-Bench-Serbian 🇷🇸
数据集概述
EQ-Bench-Serbian 是一个用于评估语言模型情感智能的基准数据集。该数据集主要针对塞尔维亚语,但也适用于波斯尼亚语和克罗地亚语。数据集通过 OpenAI 的 GPT-3.5-turbo 模型翻译,并进行了手动清理和校正。
数据集用途
该数据集用于评估语言模型在塞尔维亚语中的情感智能表现,可以用于比较不同模型在该语言上的性能。
数据集处理
数据集的评分方式是通过比例调整可解析答案的比例,以此来惩罚那些看似表现良好但实际上对塞尔维亚语掌握不佳的模型。
主要发现
- GPT4-turbo(0125-preview 版本)是目前评估模型中对塞尔维亚语表现最好的。
- 已有一些模型表现优于 GPT3.5-turbo(0125 版本)。
- YugoGPT-Chat-Align 出乎意料地得分很低。
- Perućac-7B-slerp(针对该基准测试的高分合并模型,WestLake-7B-v2 和 YugoGPT)确实得分较高,但其对塞尔维亚语的掌握程度存疑。
- 添加系统提示后,模型的表现预期会更好,但实际上表现更差。
后续工作
- 添加其他 GPT 模型的得分,以比较不同模型的表现。
- 添加其他封闭模型的得分,如 Gemini、Mistral-Large、Claude 等。
- 添加可解析答案的百分比或某种知识度量标准,以区分不同模型(如原始 EQ Bench 中的 MAGI-Hard)。



