LLM-Oasis|自然语言处理数据集|事实性评估数据集
收藏LLM-Oasis 数据集概述
数据集简介
LLM-Oasis 是一个用于端到端事实性评估的大规模资源,通过从维基百科中提取和伪造信息获得。该数据集包含 81,000 对 ⟨事实文本, 非事实文本⟩ 对,适用于训练和评估事实检查系统。
数据集组成
LLM-Oasis 包含多个子数据集,涵盖了从声明提取到非事实文本生成的不同阶段:
声明提取
- 数据集名称: Babelscape/LLM-Oasis_claim_extraction
- 描述: 包含用于训练声明提取系统的文本-声明对。
- 详细信息: 参见论文第 3.1 节。
声明伪造
- 数据集名称: Babelscape/LLM-Oasis_claim_falsification
- 描述: 包含声明伪造过程的结果。
- 详细信息: 参见论文第 3.2 节。
释义生成
- 数据集名称: Babelscape/LLM-Oasis_paraphrase_generation
- 描述: 包含从提取的声明生成的释义文本。
- 详细信息: 参见论文第 3.3 节。
非事实文本生成
- 数据集名称: Babelscape/LLM-Oasis_unfactual_text_generation
- 描述: 包含从提取的声明集生成的非事实文本,包括伪造的声明。
黄金基准
任务 1: 端到端事实性评估
- 数据集名称: Babelscape/LLM-Oasis_e2e_factuality_evaluation
- 描述: 包含用于评估自然语言文本事实性的数据。
- 详细信息: 标签已移除以进行盲评估,参见论文第 4.2 节。
任务 2: 基于证据的声明验证
- 数据集名称: Babelscape/LLM-Oasis_claim_verification
- 描述: 包含用于验证单个声明真实性的数据,基于维基百科的证据。
- 详细信息: 标签已移除以进行盲评估,参见论文第 4.2 节。
许可证
该数据集遵循 Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。
引用
如需引用该数据集,请使用以下格式:
@misc{scirè2024truthmirageendtoendfactuality, title={Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis}, author={Alessandro Scirè and Andrei Stefan Bejgu and Simone Tedeschi and Karim Ghonim and Federico Martelli and Roberto Navigli}, year={2024}, eprint={2411.19655}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.19655}, }

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录