MultiChallenge|自然语言处理数据集|对话系统数据集
收藏MultiChallenge 数据集概述
数据集简介
- 名称:MultiChallenge
- 用途:评估大型语言模型(LLMs)在处理与人类用户的多轮对话方面的能力。
数据集结构
- data/
benchmark_questions.jsonl:对话的输入文件。final_model_responses:用于基准测试的模型响应文件(可选)。
- results/
evaluation_results.txt:存储基准测试的输出,包括评估分数和指标。
- src/
models/:模型提供者类。
设置说明
-
克隆仓库 bash git clone some_directory cd multi-challenge
-
**安装需求 bash pip install -r requirements.txt
-
创建
.env文件 plaintext OPENAI_API_KEY=your-openai-api-key (REQUIRED) HUGGINGFACE_TOKEN=your-huggingface-token
使用方法
-
使用预生成响应 bash python main.py --responses-file data/model_responses.jsonl --output-file results/evaluation_results.txt
-
使用模型生成响应 bash python main.py --model-provider openai --provider-args model=gpt-4o temp=0 --output-file results/evaluation_results.txt
-
使用多次尝试 bash python main.py --model-provider openai --attempts 3 --output-file results/evaluation_results.txt
-
生成详细原始输出 bash python main.py --model-provider openai --attempts 3 --output-file results/evaluation_results.txt --raw results/detailed_results.csv
命令行参数
--output-file:保存最终评估结果的路径。--responses-file:包含预生成响应的文件路径(可选)。--model-provider:指定用于生成响应的模型提供者(如huggingface、openai等)。--provider-args:模型特定参数,格式为key=value。--attempts:为每轮对话生成的尝试次数,默认为1。--max-workers_response_gen:多线程生成响应的最大工作线程数,默认为1。--max-workers_eval:多线程评估响应的最大工作线程数,默认为1。--raw:保存包含所有响应和评估的详细原始输出的路径(可选)。
评估结果
- evaluation_results.txt
- 总体分数:至少一次尝试满足条件的对话百分比。
- 轴分数:基于尝试次数的每个轴的分数。
- detailed_results.txt(如果指定了
--raw)- 完整的对话历史。
- 每次尝试的所有模型响应。
- 评委的裁决和推理。
- 期望的通过标准。
- 每轮对话的通过/失败统计。
项目依赖
- 参见
requirements.txt以获取完整的必需包列表。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录
The Rice Annotation Project Database (RAP-DB)
RAP-DB是一个专注于水稻基因组注释的数据库,提供了水稻基因组的详细注释信息,包括基因结构、功能注释、表达数据等。该数据库旨在为水稻研究者提供一个全面的资源,以促进水稻基因组学和遗传学的研究。
rapdb.dna.affrc.go.jp 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
