five

SegmentScore

收藏
Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/dhrupadb/SegmentScore
下载链接
链接失效反馈
官方服务:
资源简介:
SegmentScore数据集包含来自不同大型语言模型(OpenAI的gpt-4.1-mini、微软的phi 3.5 mini Instruct和Meta的Llama 3.1 8B Instruct)的开放式长篇文本生成,这些文本使用SegmentScore算法和gpt-4.1-mini模型进行了事实性评分。
创建时间:
2025-10-15
原始信息汇总

SegmentScore数据集概述

数据集基本信息

  • 名称: SegmentScore: Factuality Scored Long Form Text Generations
  • 许可证: MIT
  • 语言: 英语
  • 任务类别: 文本生成、问答、文本评分

数据集描述

该数据集包含来自多种大语言模型的开放式生成长文本生成结果,使用SegmentScore算法和GPT-4.1-mini作为评判器对事实性进行评分。

数据来源

  • 模型来源: OpenAI GPT-4.1-mini、Microsoft Phi-3.5 Mini Instruct、Meta Llama-3.1 8B Instruct
  • 主页: https://arxiv.org/abs/TBD
  • 代码库: https://github.com/dhrupadb/semantic_isotropy/

数据字段结构

每个JSONL条目对应单个主题/实体,包含该主题的生成响应列表:

  • index: 整数索引标识符
  • idx_cat: 数据集类别/分割(triviaqa: ["train", "val"]、fsbio: ["combo"])
  • entity: 生成响应的输入主题或实体
  • entity_page_idx: 实体参考页面索引
  • responses: 响应对象列表
    • response: 生成响应的完整文本
    • logprobs: 响应中每个token的对数概率
    • statements: 评分的事实陈述列表
      • text: 单个陈述的文本
      • class: 事实性分类("True"或"False")
      • logprob_raw: 陈述的原始对数概率分数
      • prob_norm: 归一化概率分数
      • top_probs: 包含"0"和"1"键的顶级概率字典

数据统计

目标响应长度500词

TriviaQA数据集

模型 主题总数 平均声明数/响应 平均token数 平均事实性
Llama-3.1 8B 1000 29.77 807.45 0.458
Phi-3.5 Mini 1000 24.00 621.78 0.433
GPT-4.1 Mini 1000 38.76 1043.15 0.58

FS-BIO数据集

模型 主题总数 平均声明数/响应 平均token数 平均事实性
Llama-3.1 8B 182 28.98 811.77 0.196
Phi-3.5 Mini 182 28.32 626.69 0.358
GPT-4.1 Mini 182 21.59 593.77 0.322

数据加载方式

python from datasets import load_dataset

dataset = triviaqa # 或 fsbio models = ["openai", "meta", "msft"] data_files = { "openai": f"data/{dataset}/openai.jsonl", "meta_llama3.1": f"data/{dataset}/meta.jsonl", "msft_phi3.5": f"data/{dataset}/msft.jsonl" } segscore = load_dataset("dhrupadb/SegmentScore", data_files=data_files)

引用信息

bibtex @misc{bhardwaj2025embeddingtrustsemanticisotropy, title={Embedding Trust: Semantic Isotropy Predicts Nonfactuality in Long-Form Text Generation}, author={Dhrupad Bhardwaj and Julia Kempe and Tim G. J. Rudner}, year={2025}, eprint={2510.21891}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.21891}, }

联系方式

  • Dhrupad Bhardwaj: db4045ATnyuDOTedu
  • Tim G.J. Rudner: timATtimrudnerDOTcom
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,SegmentScore数据集通过系统化流程构建而成,其核心在于整合多个前沿大语言模型的生成文本。该数据集选取TriviaQA和FS-BIO作为知识源,分别涵盖通用知识与生物医学领域,通过GPT-4.1-mini、Phi-3.5-mini和Llama-3.1-8B三种模型生成开放式长文本。每个生成段落均经过SegmentScore算法的事实性评估,采用GPT-4.1-mini作为评判模型,对文本中的独立陈述进行真伪分类,并记录对应的概率分数与标准化指标,形成结构化的多维数据记录。
特点
该数据集展现出鲜明的多维特征,其核心价值在于提供了经过精细标注的事实性评分框架。每个数据条目不仅包含原始生成文本,还深度解析了文本中的原子化陈述,标注其事实真伪状态并附有概率化置信度。数据集覆盖不同领域与模型变体,通过对比分析可见生成文本在平均陈述数量、词汇规模与事实性指标上存在显著差异。特别值得注意的是,该数据集首次实现了生成文本中语义各向异性与事实错误率的关联量化,为理解语言模型的知识表征机制提供了关键实证基础。
使用方法
研究人员可通过标准化接口便捷地调用该数据集,利用HuggingFace数据集库的加载功能,指定目标数据集类别与模型类型即可获取结构化数据。典型应用场景包括构建生成文本事实性评估基准、开发自动事实核查系统,或探究语言模型的知识表征特性。数据条目中的概率分数与分类标签可直接用于训练判别模型,而分层存储的响应语句则为细粒度错误分析提供支持。该数据集的设计充分考虑了可扩展性,支持研究者针对特定子集进行深入挖掘与跨模型对比研究。
背景与挑战
背景概述
随着大型语言模型在长文本生成任务中的广泛应用,其输出内容的真实性评估成为自然语言处理领域的核心研究议题。SegmentScore数据集由Dhrupad Bhardwaj与Tim G.J. Rudner等研究者于2025年构建,聚焦于通过语义各向异性理论量化生成文本的事实性。该数据集整合了GPT-4.1-mini、Phi-3.5-mini与Llama-3.1-8B等主流模型在TriviaQA和FS-BIO知识库上的生成结果,通过分段评分算法实现细粒度事实验证,为生成模型的可靠性研究提供了重要基准。
当前挑战
长文本生成领域面临生成内容与事实一致性难以保障的根本性挑战,具体表现为模型易产生看似合理但实际错误的陈述。在数据集构建过程中,需攻克多维度技术难题:首先需设计能精准分离复合语义的语句分割机制,其次要建立兼顾语境完整性与独立事实单元的评分体系,最后还须解决不同领域知识(如生物医学与通用知识)的评估标准统一问题。这些挑战直接影响了模型事实性评估的准确性与可解释性。
常用场景
经典使用场景
在自然语言处理领域,SegmentScore数据集为长文本生成模型的事实性评估提供了标准化基准。该数据集通过整合TriviaQA和FS-BIO等知识密集型语料,系统采集了GPT-4.1-mini、Llama-3.1等主流大语言模型生成的开放域长文本,并采用SegmentScore算法对每个语句进行真值标注。研究者可借助该数据集横向比较不同模型在保持事实一致性方面的性能差异,例如通过分析平均事实性得分(0.458-0.58)与声明数量(21-39条)的关联,深入探索模型生成内容的可靠性特征。
解决学术问题
该数据集有效解决了生成式人工智能领域的事实性评估难题。通过构建细粒度的语句级真值标注体系,它使研究者能够量化分析模型生成内容中的事实错误分布模式。特别在探索语义各向异性与事实性关联的机制时,数据集提供的标准化概率分数(prob_norm)和原始对数概率(logprob_raw)为构建可解释性评估框架奠定了数据基础,推动了生成模型可信度研究从定性分析向定量验证的范式转变。
衍生相关工作
基于该数据集衍生的经典研究包括语义各向异性与事实性关联机制的探索工作。原始论文《Embedding Trust: Semantic Isotropy Predicts Nonfactuality in Long-Form Text Generation》开创性地建立了嵌入空间特性与生成文本事实性的理论桥梁,后续研究在此基础上发展了动态阈值检测算法,并构建了多维度事实性评估指标体系。这些工作共同推动了可信文本生成研究从表面统计向深层语义理解的发展进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作