five

GeneZC/MT-Bench-ZH|语言模型数据集|中文处理数据集

收藏
hugging_face2024-01-03 更新2024-03-04 收录
语言模型
中文处理
下载链接:
https://hf-mirror.com/datasets/GeneZC/MT-Bench-ZH
下载链接
链接失效反馈
资源简介:
MT-Bench-ZH是一个专门为中文指令跟随语言模型设计的基准测试。该数据集由GPT-4从英文的MT-Bench翻译而来,并由人工进一步校对。其目的是帮助社区开发能够处理中文指令的更好的指令跟随语言模型。数据集支持文本生成和对话任务,主要语言为中文,规模小于1千。
提供机构:
GeneZC
原始信息汇总

MT-Bench-ZH 数据集概述

数据集基本信息

  • 许可证:Apache-2.0
  • 任务类别
    • 文本生成
    • 对话系统
  • 语言:中文
  • 数据规模:n<1K

数据集动机

MT-Bench-ZH 是为了满足中文指令遵循语言模型的评估需求而创建的。该数据集由 GPT-4 从 MT-Bench 翻译并经人工校对,旨在帮助社区开发能够处理中文指令的更优秀的指令遵循语言模型。

快速开始

安装 FastChat

bash git clone https://github.com/lm-sys/FastChat.git cd FastChat pip install -e ".[model_worker,webui]"

生成响应

bash python gen_model_answer.py --model-path GeneZC/MiniChat-2-3B --model-id minichat --bench-name mt_bench_zh --max-new-token 1536

评估响应

bash export OPENAI_API_KEY=XXXXXX # 设置 OpenAI API 密钥 python gen_judgment.py --model-list minichat --bench-name mt_bench_zh --judge-file data/judge_prompts_zh.jsonl --parallel 4

显示结果

bash python show_result.py --bench-name mt_bench_zh

排行榜

方法 MT-Bench-ZH
🥇 GPT-4 8.96
🥈 Zephyr-7B-Beta 6.27<sup>#</sup>
🥉 Qwen-Chat-7B 6.24
MiniChat-2-3B 6.04
Qwen-Chat-1.8B 5.65
LLaMA-2-Chat-7B 5.43<sup>#</sup>
Vicuna-7B 5.22<sup>#</sup>
StableLM-Zephyr-3B 4.31<sup>#</sup>
Rocket-3B 4.07<sup>#</sup>
Phi-2-DPO 1.59<sup>#</sup><sup>$</sup>

<sup>#</sup> 主要针对英语进行优化。

<sup>$</sup> 未使用多轮指令数据进行微调。

贡献

可以通过提交 issue 提出与基准测试相关的问题,或者通过提交 pull request 将其他模型的结果添加到排行榜中。对于排行榜,需要附上相关文件进行合理性检查(例如,应上传单独的模型响应文件,并更新 GPT-4 判断文件)。

AI搜集汇总
数据集介绍
main_image_url
构建方式
MT-Bench-ZH数据集的构建旨在填补中文指令遵循语言模型评估的空白。该数据集由GPT-4翻译自MT-Bench,并经过人工校对,确保其准确性和适用性。通过这种方式,MT-Bench-ZH为中文指令遵循模型的开发和评估提供了一个专门的基准。
特点
MT-Bench-ZH数据集的主要特点在于其专门针对中文指令遵循模型的评估需求。该数据集不仅涵盖了多种语言模型的评估,还通过GPT-4的翻译和人工校对,确保了数据的高质量和准确性。此外,数据集支持单模式判断,便于快速评估和比较不同模型的性能。
使用方法
使用MT-Bench-ZH数据集进行模型评估时,首先需安装FastChat工具,然后通过gen_model_answer.py脚本生成模型响应。接着,利用gen_judgment.py脚本对生成的响应进行评估,并设置OpenAI API密钥以确保评估的准确性。最后,通过show_result.py脚本展示评估结果,便于直观比较各模型的性能。
背景与挑战
背景概述
在自然语言处理领域,指令遵循语言模型的发展日益受到关注,尤其是在多语言环境下的应用。尽管MiniChat-1/1.5/2-3B等模型能够处理中文指令,但缺乏专门针对中文的指令遵循基准测试。为填补这一空白,GeneZC团队于近期推出了MT-Bench-ZH数据集。该数据集由GPT-4翻译并经人工校对,旨在为中文指令遵循模型的评估提供标准化的测试平台。MT-Bench-ZH的推出不仅促进了中文自然语言处理技术的发展,也为全球多语言模型的研究提供了新的视角。
当前挑战
MT-Bench-ZH数据集在构建过程中面临多重挑战。首先,翻译和校对过程需要确保语言的准确性和文化适应性,这对数据质量提出了高要求。其次,由于当前支持的评估模式仅限于‘single’模式,模型的多轮对话能力未能得到充分测试,这限制了数据集的应用范围。此外,尽管已有一些模型在MT-Bench-ZH上进行了测试,但大多数模型仍主要针对英文进行优化,如何在多语言环境下实现模型的均衡发展仍是一个亟待解决的问题。
常用场景
经典使用场景
在自然语言处理领域,MT-Bench-ZH数据集的经典使用场景主要集中在评估和改进中文指令遵循语言模型的性能。该数据集通过提供一系列中文指令,帮助研究人员和开发者测试模型在处理中文文本生成和对话任务中的表现。通过对比不同模型的响应质量,MT-Bench-ZH为优化中文语言模型的指令遵循能力提供了宝贵的基准。
实际应用
在实际应用中,MT-Bench-ZH数据集被广泛用于开发和优化能够处理中文指令的智能助手和聊天机器人。通过使用该数据集进行模型训练和评估,开发者能够提升系统在真实世界中的交互能力,从而更好地满足用户需求。此外,MT-Bench-ZH还支持企业级应用,如客户服务自动化和智能客服系统,显著提高了服务效率和用户体验。
衍生相关工作
MT-Bench-ZH数据集的发布激发了一系列相关研究和工作。例如,基于该数据集,研究人员开发了多种中文指令遵循模型,如MiniChat-2-3B和Qwen-Chat-7B,这些模型在多个任务中表现出色。此外,MT-Bench-ZH还促进了跨语言模型的研究,探索了如何将中文模型的优势迁移到其他语言环境中,推动了多语言自然语言处理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录