openbmb/factnet_factsense
收藏Hugging Face2026-05-07 更新2026-03-21 收录
下载链接:
https://hf-mirror.com/datasets/openbmb/factnet_factsense
下载链接
链接失效反馈官方服务:
资源简介:
FactSense数据集是FactNet的语言层,提供了从维基百科页面提取的多语言自然语言事实表达。每个FactSense实例代表一个以自然文本实现的事实陈述,并包含来源信息。数据集包含多个关键字段,如唯一标识符、语言代码、维基百科页面信息、匹配类型、句子文本、置信度分数等。该数据集可用于多语言事实核查、知识基础生成和跨语言信息检索等应用。
The FactSense dataset serves as the language layer of FactNet, providing multilingual natural language factual expressions extracted from Wikipedia pages. Each FactSense instance represents a factual statement expressed in natural language text, and includes source information. The dataset contains multiple key fields, such as unique identifiers, language codes, Wikipedia page information, matching types, sentence text, confidence scores, and so on. This dataset can be used for applications including multilingual fact-checking, knowledge base generation, and cross-lingual information retrieval.
提供机构:
openbmb
搜集汇总
数据集介绍

构建方式
FactSense数据集作为FactNet多层级知识图谱中的语言层,专注于将维基百科中抽取的结构化事实转化为多语言的自然语言表述。其构建流程始于从维基百科页面中提取实体、属性和关系三元组,随后通过多种匹配策略(如站点链接、页面内链接及标签匹配)将三元组与对应自然语句进行关联。每个实例均包含唯一标识符、关联事实语句编号、语言代码及匹配类型,并辅以置信度评分以反映事实表述的可靠性。提取过程采用版本化的策略,确保数据构建的可追溯性与持续更新能力。
特点
该数据集的核心特色在于其多语言覆盖与细粒度事实级标注,支持英语、中文等多种语言的自然语言事实表述,极大拓展了跨语言应用场景的适应性。每个FactSense实例不仅提供1000字符以内的事实提及语句,还保留了其所在维基百科页面的元数据(如页面标题、命名空间)及语句位置信息,构建了从实体到自然文本的精确映射。置信度分数(0.5-0.9)的引入为下游任务提供了可靠性筛选依据,而丰富的匹配类型字段则反映了事实抽取策略的多样性,增强了数据集的灵活性与鲁棒性。
使用方法
FactSense数据集可直接通过HuggingFace平台以Parquet格式加载,适用于多语言事实核查、知识增强生成及跨语言信息检索等前沿任务。用户可依据factsense_id与belongs_to_statement_id字段关联至FactNet底层结构化知识,利用sentence字段获取事实的自然语言证据。建议在加载时根据language和confidence字段进行过滤,以适配特定语言或可靠性需求。结合Paper与Github仓库中提供的基线模型与示例代码,研究者可快速上手,将事实级自然语言表述融入下游系统的训练与评估流程。
背景与挑战
背景概述
FactSense作为FactNet的语义层,于2026年由清华大学等机构的研究团队提出,旨在为多语言知识图谱提供自然语言表达的事实证据。该数据集从维基百科页面中提取事实语句,并附有完整的出处信息,支撑多语言事实核查、知识驱动的文本生成及跨语言信息检索等研究。其核心贡献在于将结构化知识转化为人类可读的表述,使机器能够在自然文本中定位并验证事实,为构建可信赖的AI系统奠定了数据基础,对知识密集型自然语言处理任务具有深远影响。
当前挑战
FactSense面临的首要挑战在于多语言环境下事实表述的歧义性与文化差异性,同一事实在不同语言中可能呈现迥异的表达方式,从而影响匹配精度。构建过程中,从维基百科海量页面中自动提取事实需应对句子边界模糊、跨段落依赖及实体消歧等难题,且置信度得分仅在0.5至0.9之间,表明大量低置信度样本仍需人工校验。此外,如何保障更新后的维基百科内容与已提取事实的时效同步,亦是维护该数据集持续可用性的关键挑战。
常用场景
经典使用场景
FactSense数据集作为FactNet的语义层,为多语言事实核查与知识图谱验证提供了不可或缺的细粒度证据。其最经典的使用场景在于,基于维基百科提取的实体-属性-值三元组,将结构化知识转化为自然语言句子,从而支撑跨语言文本中的事实一致性验证。研究者可通过该数据集中的置信度得分及匹配类型,精准定位并评估特定事实陈述在真实文本中出现的可靠性,构建高性能的事实检测系统。
实际应用
在实际部署过程中,FactSense展现出赋能智能客服与自动新闻聚合系统的巨大潜力。例如,在医疗知识问答场景里,系统可调用该数据集中的多语言句子证据,快速核对患者查询中涉及药品或疾病的事实是否来源于权威百科。同样地,在跨境舆情分析时,它能够比对不同语言新闻中对同一事件的核心陈述,自动识别传播过程中的事实扭曲或错误,显著提升信息可信度评估的自动化水平。
衍生相关工作
基于FactSense语料,学界已衍生出多项里程碑式工作,例如融入多粒度句子-三元组比对机制的跨语言事实检测新范式。相关工作聚焦于利用FactSense提供的高置信度实例来微调大型语言模型,显著降低了模型在生成任务中产生事实性幻觉的比例。此外,该数据集还催生了知识图谱补全任务中的新型评估基准,推动了基于自然语言表示的知识验证评测体系的建立,并成为多语言事实验证联合训练框架的核心数据支撑。
以上内容由遇见数据集搜集并总结生成



