FactualityPrompt|语言模型评估数据集|事实准确性数据集
收藏FactualityPrompt 数据集概述
基本信息
- 许可证: Apache 2.0
- 相关论文: "Factuality Enhanced Language Models for Open-Ended Text Generation"
- 作者: Nayeon Lee, Wei Ping, Peng Xu, Mostofa Patwary, Pascale Fung, Mohammad Shoeybi, Bryan Catanzaro
- 机构: NVIDIA
数据集内容
- fever_athene: 包含事实检查流程代码(Wiki文档检索器、Wiki句子选择器等),基于UKPLab/fever-2018-team-athene的代码。
- prompts: 包含论文中使用的FactualityPrompt测试集。
- src: 用于评估语言模型生成内容事实性的代码。
数据集使用
1. 设置
- 安装依赖:
pip install -r requirements.txt
- 下载Wikipedia处理后的数据: kilt_knowledgesource.json
- 创建DB文件:
PYTHONPATH=fever_athene python3 fever_athene/scripts/build_db_kilt.py data/knowledgesource.json data/kilt_db.db
2. 运行评估脚本
-
事实性指标(Hallucinated NE Error, Entailment Ratio): bash for PROMPT_TYPE in factual nonfactual do GEN_TO_EVALUATE_NAME=${PROMPT_TYPE}-CUSTOM-GEN-NAME.jsonl PYTHONPATH=. python src/evaluate_v3_final.py --prompt_type ${PROMPT_TYPE} --gen_path ${GEN_TO_EVALUATE_NAME} done
-
重复性评估: bash for PROMPT_TYPE in factual nonfactual do GEN_TO_EVALUATE_NAME=${PROMPT_TYPE}-CUSTOM-GEN-NAME.jsonl python src/repetition.py ${GEN_TO_EVALUATE_NAME} --final done
-
多样性评估: bash GEN_DIR=directory-containing-multi-seed-generation-files FILE_TEMPLATE=shared-string-between-multiple-seed-generation python src/distinct_n.py --gen_dir ${GEN_DIR} --file_template ${FILE_TEMPLATE} --number_of_seeds 10
相关资源
- Megatron-LM: 用于复现论文中的Factual Nucleus Decoding和Sentence Completion Loss。
- Huggingface: 复现论文工作的相关代码库位于factuality_enhanced_lm_hf。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录