MINT|多轮交互数据集|语言模型评估数据集
收藏MINT 数据集概述
数据集简介
- 名称: MINT (Multi-turn Interaction with Tools and Language Feedback)
- 目的: 评估大型语言模型(LLMs)在以下两方面的能力:
- 使用工具
- 利用自然语言反馈
- 特点: 专注于多轮交互任务解决
- 论文: MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback
- 作者: Xingyao Wang*, Zihan Wang*, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, Heng Ji
数据集使用
环境设置
- 推荐方式: Docker 容器
- 替代方式: 本地 Conda 环境
- 依赖文件:
environment.yml
- 安装命令:
pip install -e .
- 依赖文件:
模型评估
- 支持模型类型:
- HuggingFace 兼容的开源模型
- API 基础的闭源模型 (需提供 API Key)
- 支持的 API: OpenAI, Bard, Claude
配置生成
- 配置文件生成脚本:
mint/configs/generate_config.py
- 默认输出目录:
- 配置文件:
configs/
- 模型输出:
data/outputs
- 配置文件:
结果分析
- 分析工具:
- Jupyter Notebook:
scripts/notebook/analyze_output.ipynb
- Python 脚本:
scripts/convert_outputs.py
- Jupyter Notebook:
- 可视化工具:
- Streamlit 应用:
scripts/visualizer.py
- Streamlit 应用:
贡献指南
- 接受贡献类型:
- 模型输出
- 工具
- 数据
- 贡献方式: 通过 PR 提交到
data/outputs
目录
引用信息
bibtex @misc{wang2023mint, title={MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback}, author={Xingyao Wang and Zihan Wang and Jiateng Liu and Yangyi Chen and Lifan Yuan and Hao Peng and Heng Ji}, year={2023}, eprint={2309.10691}, archivePrefix={arXiv}, primaryClass={cs.CL} }

Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录