DAHL|生物医学数据集|模型评估数据集
收藏DAHL 数据集概述
数据集构建
- 来源:基于从PMC爬取的研究论文生成可能的考试问题。
- 生成方式:使用gpt-4-1106-preview生成问题,并手动筛选出高质量问题。
评估流程
- 自动化评估流程:包括两个阶段:
- 将响应分割成原子单位。
- 检查每个原子单位的事实性。
安装与使用
-
安装: bash git clone https://github.com/seemdog/DAHL.git cd DAHL
-
响应生成:
-
Huggingface模型: bash python generate_response_hf.py --model meta-llama/Meta-Llama-3-8B-Instruct --temperature 0.6 --max_new_tokens 256
-
OpenAI模型: bash python generate_response_gpt.py --model gpt-4o --api_key YOUR_API_KEY --temperature 0.6
-
-
评估: bash cd evaluate sh run.sh model_to_evaluate openAI_API_key perplexityAI_API_key model_to_use_perplexityAI
结果保存
- 最终DAHL评分:将保存在一个
.txt
文件中。
引用
- 引用信息:待定(TBD)。

- 1DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine首尔国立大学 · 2024年
2022_长沙市标准地图行政区划示意版32开
基于湖南省基础地理信息数据库,依据湖南省行政区划界线标准画法和最新境界、标准地名成果,采用其他自然地理要素和人文专题要素的现势性资料编制而成。
湖南大数据交易所 收录
ECNU-SEA/SEA_data
该数据集包含四种类型的文件:原始PDF格式的论文、通过Nougat解析后的mmd文件、爬取的原始评审文本以及处理后的评审JSON文件。数据集来源于OpenReview,包括NeurIPS-2023和ICLR-2024的最新论文及其评审。
hugging_face 收录
TerraClimate
TerraClimate是一个全球月度气候和水分平衡数据集,涵盖了1958年至今的气候数据。该数据集包括温度、降水、蒸散量、径流、雪水当量、潜在蒸散量和土壤水分等变量。数据集的分辨率为4千米,适用于全球范围内的气候和水分平衡研究。
www.climatologylab.org 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
highD
highD数据集是由亚琛工业大学汽车工程研究所创建的,旨在为高度自动化驾驶系统的安全验证提供大规模自然车辆轨迹数据。该数据集包含从德国高速公路收集的16.5小时测量数据,涵盖110,000辆车,总行驶距离达45,000公里,记录了5600次完整的变道行为。数据集通过配备高分辨率摄像头的无人机从空中视角进行测量,确保了数据的准确性和自然性。highD数据集不仅用于安全验证和影响评估,还支持交通模拟模型、交通分析、驾驶员模型和道路用户预测模型等领域的研究,旨在解决高度自动化驾驶系统在复杂交通环境中的应用问题。
arXiv 收录