LLM-Oasis|自然语言处理数据集|事实性评估数据集

github2024-12-03 更新2024-12-09 收录

自然语言处理

事实性评估

下载链接：

https://github.com/Babelscape/LLM-Oasis

下载链接

链接失效反馈

资源简介：

LLM-Oasis是一个大规模资源，用于端到端的事实性评估，通过从维基百科中提取和伪造信息获得。它包含多个数据集，用于不同的管道阶段，如Claim Extraction、Claim Falsification、Paraphrase Generation和Unfactual Text Generation。

创建时间：

2024-11-28

原始信息汇总

LLM-Oasis 数据集概述

数据集简介

LLM-Oasis 是一个用于端到端事实性评估的大规模资源，通过从维基百科中提取和伪造信息获得。该数据集包含 81,000 对 ⟨事实文本, 非事实文本⟩ 对，适用于训练和评估事实检查系统。

数据集组成

LLM-Oasis 包含多个子数据集，涵盖了从声明提取到非事实文本生成的不同阶段：

声明提取

数据集名称: Babelscape/LLM-Oasis_claim_extraction
描述: 包含用于训练声明提取系统的文本-声明对。
详细信息: 参见论文第 3.1 节。

声明伪造

数据集名称: Babelscape/LLM-Oasis_claim_falsification
描述: 包含声明伪造过程的结果。
详细信息: 参见论文第 3.2 节。

释义生成

数据集名称: Babelscape/LLM-Oasis_paraphrase_generation
描述: 包含从提取的声明生成的释义文本。
详细信息: 参见论文第 3.3 节。

非事实文本生成

数据集名称: Babelscape/LLM-Oasis_unfactual_text_generation
描述: 包含从提取的声明集生成的非事实文本，包括伪造的声明。

黄金基准

任务 1: 端到端事实性评估

数据集名称: Babelscape/LLM-Oasis_e2e_factuality_evaluation
描述: 包含用于评估自然语言文本事实性的数据。
详细信息: 标签已移除以进行盲评估，参见论文第 4.2 节。

任务 2: 基于证据的声明验证

数据集名称: Babelscape/LLM-Oasis_claim_verification
描述: 包含用于验证单个声明真实性的数据，基于维基百科的证据。
详细信息: 标签已移除以进行盲评估，参见论文第 4.2 节。

许可证

该数据集遵循 Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。

引用

如需引用该数据集，请使用以下格式：

@misc{scirè2024truthmirageendtoendfactuality, title={Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis}, author={Alessandro Scirè and Andrei Stefan Bejgu and Simone Tedeschi and Karim Ghonim and Federico Martelli and Roberto Navigli}, year={2024}, eprint={2411.19655}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.19655}, }

AI搜集汇总

数据集介绍

构建方式

在构建LLM-Oasis数据集时，研究者们从维基百科中提取文本，并从中分离出事实陈述与非事实陈述。具体而言，他们首先从维基百科文本中提取事实陈述，随后通过篡改这些事实陈述生成非事实陈述。基于这些陈述，研究者设计了两个任务：一是生成事实文本的释义，二是生成包含篡改陈述的非事实文本。最终，这一过程产生了81,000对事实与非事实文本对，为训练和评估事实核查系统提供了丰富的资源。

使用方法

LLM-Oasis数据集主要用于训练和评估事实核查系统。用户可以通过Hugging Face平台访问数据集的各个部分，包括陈述提取、陈述篡改、释义生成和非事实文本生成等。为了评估模型，用户可以提交预测结果，结果格式为包含'id'和'factual'键的JSONL文件，其中'factual'键的值为布尔类型，表示文本是否为事实。这一评估方法确保了数据集在事实核查任务中的广泛应用和有效性。

背景与挑战

背景概述

LLM-Oasis数据集由Babelscape团队创建，旨在解决大规模语言模型中的事实性评估问题。该数据集通过从维基百科中提取和伪造信息，生成了81,000对事实与非事实文本对，用于训练和评估事实核查系统。其核心研究问题是如何实现端到端的事实性评估，这对于提高自然语言处理模型的可靠性至关重要。LLM-Oasis的发布标志着在事实核查领域的一次重要进展，为研究人员提供了一个强大的工具来测试和改进模型的准确性。

当前挑战

LLM-Oasis数据集在构建过程中面临多项挑战。首先，从维基百科中提取事实性声明并生成相应的非事实性声明需要高度精确的自然语言处理技术。其次，生成的事实性文本及其非事实性对偶文本的质量控制是一个复杂的过程，涉及语义一致性和逻辑连贯性的严格评估。此外，数据集的规模和多样性要求高效的算法和计算资源来处理和存储大量数据。这些挑战不仅影响了数据集的构建，也对其在实际应用中的有效性提出了考验。

常用场景

经典使用场景

在自然语言处理领域，LLM-Oasis数据集的经典使用场景主要集中在事实性评估任务中。该数据集通过从维基百科中提取事实性声明并生成其非事实性对偶，为训练和评估事实检查系统提供了丰富的资源。具体而言，LLM-Oasis设计了两个任务：端到端事实性评估和基于证据的声明验证。这些任务不仅有助于模型识别文本中的事实性错误，还能提升其在真实世界应用中的可靠性。

解决学术问题

LLM-Oasis数据集解决了自然语言处理领域中长期存在的事实性评估难题。通过提供大量的事实与非事实文本对，该数据集为研究者提供了一个标准化的基准，用于评估和改进事实检查模型的性能。这不仅推动了事实性评估技术的发展，还为相关领域的研究提供了新的视角和方法，具有重要的学术意义和影响。

实际应用

在实际应用中，LLM-Oasis数据集被广泛用于开发和验证事实检查系统，这些系统在新闻验证、信息过滤和内容审核等领域具有重要作用。例如，新闻机构可以利用这些系统自动检测和纠正新闻报道中的事实性错误，从而提高信息的准确性和可信度。此外，社交媒体平台也可以使用这些系统来过滤虚假信息，保护用户免受误导。

数据集最近研究

最新研究方向

在自然语言处理领域，LLM-Oasis数据集的最新研究方向聚焦于端到端的事实性评估。该数据集通过从维基百科中提取和伪造信息，生成大量的事实与非事实文本对，旨在训练和评估事实核查系统。这一研究不仅推动了事实性评估技术的发展，还为大型语言模型在事实性验证方面的应用提供了新的基准。通过设计两个任务——端到端事实性评估和基于证据的声明验证，LLM-Oasis为研究人员提供了一个全面的工具，以提升语言模型在处理和验证信息时的准确性和可靠性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务，涉及生物医学领域。数据集包含两个配置：text-corpus和question-answer-passages，分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集，并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录