GeneZC/MT-Bench-ZH|语言模型数据集|中文处理数据集
收藏MT-Bench-ZH 数据集概述
数据集基本信息
- 许可证:Apache-2.0
- 任务类别:
- 文本生成
- 对话系统
- 语言:中文
- 数据规模:n<1K
数据集动机
MT-Bench-ZH 是为了满足中文指令遵循语言模型的评估需求而创建的。该数据集由 GPT-4 从 MT-Bench 翻译并经人工校对,旨在帮助社区开发能够处理中文指令的更优秀的指令遵循语言模型。
快速开始
安装 FastChat
bash git clone https://github.com/lm-sys/FastChat.git cd FastChat pip install -e ".[model_worker,webui]"
生成响应
bash python gen_model_answer.py --model-path GeneZC/MiniChat-2-3B --model-id minichat --bench-name mt_bench_zh --max-new-token 1536
评估响应
bash export OPENAI_API_KEY=XXXXXX # 设置 OpenAI API 密钥 python gen_judgment.py --model-list minichat --bench-name mt_bench_zh --judge-file data/judge_prompts_zh.jsonl --parallel 4
显示结果
bash python show_result.py --bench-name mt_bench_zh
排行榜
方法 | MT-Bench-ZH |
---|---|
🥇 GPT-4 | 8.96 |
🥈 Zephyr-7B-Beta | 6.27<sup>#</sup> |
🥉 Qwen-Chat-7B | 6.24 |
MiniChat-2-3B | 6.04 |
Qwen-Chat-1.8B | 5.65 |
LLaMA-2-Chat-7B | 5.43<sup>#</sup> |
Vicuna-7B | 5.22<sup>#</sup> |
StableLM-Zephyr-3B | 4.31<sup>#</sup> |
Rocket-3B | 4.07<sup>#</sup> |
Phi-2-DPO | 1.59<sup>#</sup><sup>$</sup> |
<sup>#</sup> 主要针对英语进行优化。
<sup>$</sup> 未使用多轮指令数据进行微调。
贡献
可以通过提交 issue 提出与基准测试相关的问题,或者通过提交 pull request 将其他模型的结果添加到排行榜中。对于排行榜,需要附上相关文件进行合理性检查(例如,应上传单独的模型响应文件,并更新 GPT-4 判断文件)。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录