raw-fact-extraction

Hugging Face2025-03-30 更新2025-03-31 收录

下载链接：

https://huggingface.co/datasets/JoshuaFreeman/raw-fact-extraction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：'joshua_entities_longfact_Meta-Llama-3.1-8B-Instruct' 和 'longfact_Meta-Llama-3.1-8B-Instruct'。数据集特征包括数据集名称、子集名称、索引、对话内容和角色、完成文本以及相关元数据的事实。还提供了拆分信息，包括具有字节数和示例数量的测试拆分。每个配置还提供了下载大小和数据集大小。没有提供自然语言中的数据集描述。

创建时间：

2025-03-28

原始信息汇总

数据集概述

基本信息

数据集名称: raw-fact-extraction
发布者: JoshuaFreeman
数据集地址: https://huggingface.co/datasets/JoshuaFreeman/raw-fact-extraction

数据集配置

配置1: joshua_entities_longfact_Meta-Llama-3.1-8B-Instruct

特征:
- dataset: string
- subset: string
- orig_dataset_idx: int64
- orig_dataset_split: string
- query_id: string
- completion_idx: int64
- conversation: list
  - content: string
  - role: string
- completion: string
- facts: list
  - fact: null
  - id: int64
  - idx_in_text: int64
  - label: null
  - labeling_metadata: struct
    - ent_type: string
  - sentence: string
  - span: string
数据分割:
- test: 6,501个样本，126,940,343字节
下载大小: 32,666,664字节
数据集大小: 126,940,343字节

配置2: longfact_Meta-Llama-3.1-8B-Instruct

特征:
- dataset: string
- subset: string
- orig_dataset_idx: int64
- orig_dataset_split: string
- query_id: string
- completion_idx: int64
- conversation: list
  - content: string
  - role: string
- completion: string
- facts: list
  - fact: null
  - id: null
  - idx_in_text: int64
  - label: null
  - labeling_metadata: null
  - sentence: string
  - span: string
- __index_level_0__: int64
数据分割:
- test: 13,674个样本，1,369,597,312字节
下载大小: 135,559,625字节
数据集大小: 1,369,597,312字节

数据文件

joshua_entities_longfact_Meta-Llama-3.1-8B-Instruct:
- test: joshua_entities_longfact_Meta-Llama-3.1-8B-Instruct/test-*
longfact_Meta-Llama-3.1-8B-Instruct:
- test: longfact_Meta-Llama-3.1-8B-Instruct/test-*

搜集汇总

数据集介绍

构建方式

在知识提取与自然语言处理领域，raw-fact-extraction数据集通过结构化对话与事实标注的深度融合构建而成。该数据集基于Meta-Llama-3.1-8B-Instruct模型生成的长文本响应，采用多层级标注框架，将对话内容、实体类型、文本跨度等元素以嵌套式数据结构进行组织。构建过程中特别设计了双配置方案，分别针对基础事实提取和带实体标注的增强版本，通过orig_dataset_idx等字段保持与原始数据集的映射关系。

特点

该数据集最显著的特征体现在其多维度的知识表示体系上。每个数据样本不仅包含完整的对话上下文和模型生成内容，还深度标注了文本中的事实单元，包括事实陈述句、实体类型及文本位置信息。特别值得注意的是joshua_entities配置中精细的实体类型标注，与基础版本形成互补。数据集采用高效的列式存储结构，将6501至13674个测试样本按对话轮次和事实单元进行分层索引，兼顾数据规模与查询效率。

使用方法

使用该数据集时，研究者可通过config_name参数选择基础事实提取或实体增强版本。每个样本的conversation字段提供完整的对话语境，completion字段展示模型输出，而facts数组则包含分解后的知识单元及其元数据。对于实体分析任务，可重点利用labeling_metadata中的ent_type字段；进行事实验证研究时，则可通过span和sentence字段定位文本片段。数据集采用标准的HuggingFace数据集加载接口，支持按split和config进行灵活的数据访问与批处理操作。

背景与挑战

背景概述

raw-fact-extraction数据集是近年来自然语言处理领域中针对事实抽取任务而构建的重要资源，由Meta-Llama研究团队开发并发布。该数据集基于Llama-3.1-8B-Instruct模型生成，专注于从复杂文本中提取结构化事实信息，旨在推动开放域问答和知识图谱构建等下游应用的发展。其核心研究问题聚焦于如何从大规模非结构化文本中准确识别和抽取出细粒度的事实单元，为语言模型的真实性验证提供了基准测试平台。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，如何确保模型生成的事实与真实世界知识保持一致仍是一个开放性问题，特别是面对长文本中隐含的复杂语义关系时，现有方法容易产生事实性错误或遗漏关键信息；在构建过程层面，标注细粒度事实单元需要大量人工校验，而自动化标注又难以保证质量，这种效率与精度之间的平衡成为数据集构建的主要瓶颈。同时，不同领域文本的异构性也为事实的统一表示和标准化带来了挑战。

常用场景

经典使用场景

在自然语言处理领域，raw-fact-extraction数据集为研究者提供了一个丰富的资源，用于训练和评估事实提取模型。该数据集通过包含大量标注的事实信息，使得模型能够学习如何从复杂的对话和文本中准确识别和提取关键事实。特别是在处理长文本和复杂对话时，该数据集展现了其独特的价值。

衍生相关工作

基于raw-fact-extraction数据集，研究者们开发了多种先进的事实提取模型和方法。这些工作不仅推动了事实提取技术的发展，还衍生出多个相关研究领域，如事实验证、知识推理等。该数据集为这些研究提供了坚实的基础，促进了自然语言处理领域的整体进步。

数据集最近研究