five

connection_queries_jan12_natural_creative_1_None_0.7_4096_Olmo-3_1-32B-Instruct

收藏
Hugging Face2026-01-22 更新2026-01-23 收录
下载链接:
https://huggingface.co/datasets/connections-dev/connection_queries_jan12_natural_creative_1_None_0.7_4096_Olmo-3_1-32B-Instruct
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'connections-dev/connection_queries_jan12',是通过推理脚本生成的,包含931个样本。数据集主要用于推理、实体连接和知识图谱相关任务,包含以下关键列:查询(query)、起始实体(entity_a)、目标实体(entity_b)、目标关系(rel_b)、生成连接路径(path_prediction)和路径生成提示(prompt_for_path)。生成时使用了allenai/Olmo-3.1-32B-Instruct模型,配置参数包括温度0.7、最大token数4096等。
创建时间:
2026-01-17
原始信息汇总

数据集概述

基本信息

  • 数据集名称: connections-dev/connection_queries_jan12_natural_creative_1_None_0.7_4096_Olmo-3_1-32B-Instruct
  • 语言: 英语 (en)
  • 许可证: MIT
  • 标签: inference, entity-connections, knowledge-graph

生成信息

  • 生成日期: 2026-01-22 10:45:45
  • 输入文件: connections-dev/connection_queries_jan12
  • 输出文件名: connection_queries_jan12__natural__creative__1__None__0.7__4096__Olmo-3_1-32B-Instruct.jsonl

配置参数

模型配置

  • 模型名称: allenai/Olmo-3.1-32B-Instruct
  • 服务器地址: http://localhost:9000
  • API密钥: 未提供
  • 请求超时: 30秒

查询配置

  • 查询类型: natural
  • 查询列: query
  • 采样类型: creative

生成参数

  • 温度: 0.7
  • 最大令牌数: 4096
  • 运行次数: 1
  • 数据块大小: 整个数据集
  • 努力级别: 未指定

功能标志

  • 逐步推理: 否
  • 启用推理: 否
  • 无策展人: 否
  • 索引过滤器: 无 (所有样本)
  • 起始索引: 无
  • 结束索引: 无

数据统计

  • 样本数量: 931

数据结构

数据集包含以下关键列:

  • query: 原始查询
  • entity_a: 起始实体
  • entity_b: 目标实体
  • rel_b: 目标关系
  • path_prediction: 生成的连接路径
  • prompt_for_path: 用于路径生成的提示

使用方法

python from datasets import load_dataset

dataset = load_dataset("connections-dev/connection_queries_jan12_natural_creative_1_None_0.7_4096_Olmo-3_1-32B-Instruct")

搜集汇总
数据集介绍
main_image_url
构建方式
在知识图谱推理领域,构建高质量的数据集对于评估模型性能至关重要。该数据集采用先进的生成式方法,基于特定配置的推理脚本构建而成。具体而言,研究者选用了allenai/Olmo-3.1-32B-Instruct模型作为生成引擎,通过本地服务器接口进行调用,确保了生成过程的稳定与高效。在参数设置上,温度值设定为0.7,以平衡生成结果的多样性与一致性,同时最大生成长度限制在4096个标记内,以适应复杂路径的表述需求。生成过程中,查询类型被定义为自然语言形式,并采用创意性采样策略,旨在模拟真实场景下的实体关联推理任务。整个数据集包含931个样本,每个样本均源自connections-dev/connection_queries_jan12原始文件,经过模型处理后以JSONL格式保存,保留了完整的生成轨迹与提示信息。
使用方法
对于希望利用该数据集的研究者而言,其使用方法直接而高效。通过Hugging Face的datasets库,用户可以便捷地加载整个数据集,无需复杂的预处理步骤。加载后的数据结构清晰,包含查询、实体对、关系及生成路径等关键列,便于直接输入到下游的机器学习模型或评估框架中。鉴于数据集专注于实体连接预测,它特别适用于训练或微调大型语言模型在知识图谱补全、关系推理等任务上的能力。研究者可以分析模型生成的路径预测结果,与真实知识图谱进行对比,以评估模型的逻辑连贯性与事实准确性。此外,数据集中的提示文本字段为研究提示工程对生成效果的影响提供了宝贵素材。整体而言,该数据集为推进自然语言处理与知识表示学习的交叉研究提供了即用型实验数据。
背景与挑战
背景概述
在知识图谱与自然语言处理交叉领域,实体连接推理旨在揭示实体间隐含的语义关联,是支撑智能问答、信息检索等应用的核心任务。数据集connection_queries_jan12_natural_creative_1_None_0.7_4096_Olmo-3_1-32B-Instruct由connections-dev团队于2026年1月发布,基于Olmo-3.1-32B-Instruct大语言模型生成。该数据集聚焦于通过自然语言查询探索实体间的多跳关系路径,其构建依托于先进的指令微调模型,旨在推动开放域知识推理的可解释性研究,为评估模型在复杂语义场景下的逻辑连贯性与创造性提供了基准资源。
当前挑战
实体连接推理任务面临的核心挑战在于处理开放域中实体关系的模糊性与多样性,要求模型不仅能准确识别实体指称,还需在庞大知识网络中检索并组合多跳关系,同时保持路径的语义合理性与逻辑一致性。在数据集构建过程中,生成式方法依赖于大语言模型的推理能力,但模型可能产生事实性错误或逻辑矛盾,且创造性采样策略虽能丰富输出多样性,却可能引入噪声,导致路径预测的可信度评估复杂化。此外,确保生成路径与真实世界知识对齐,避免幻觉现象,是此类数据构建亟待解决的技术难题。
常用场景
经典使用场景
在知识图谱与自然语言处理交叉领域,该数据集为实体连接查询提供了标准化的评估基准。其核心应用场景在于测试大型语言模型在复杂关系推理任务中的表现,通过自然语言查询引导模型生成实体间的连接路径,从而模拟真实世界知识检索与逻辑推断过程。这一场景广泛应用于模型能力评测,帮助研究者量化模型在结构化知识理解与生成方面的精度与鲁棒性。
解决学术问题
该数据集主要针对知识图谱补全与多跳推理中的关键挑战,即如何让模型基于不完整或隐含的关系网络,准确推断实体间的潜在关联。它解决了传统方法依赖显式图谱结构的局限性,推动了对端到端神经推理模型的研究,促进了语义理解与符号逻辑的结合,为可解释人工智能提供了数据基础。其意义在于建立了连接预测任务的新范式,影响了知识驱动型自然语言处理的发展方向。
实际应用
在实际应用中,该数据集支撑了智能问答系统、推荐引擎与学术文献挖掘等场景的优化。例如,在医疗或金融领域,系统可利用此类连接查询推断疾病与基因的潜在关联,或识别企业间的隐藏投资关系。它增强了自动化知识发现工具的可靠性,使机器能够从海量非结构化文本中提取并验证复杂关系链,提升了行业决策支持系统的智能化水平。
数据集最近研究
最新研究方向
在知识图谱与实体关系推理领域,该数据集凭借其自然语言查询与创造性路径生成特性,正推动前沿研究向开放域复杂关系发现迈进。当前研究聚焦于利用大语言模型如Olmo-3.1-32B-Instruct,探索多跳推理中语义连贯性与逻辑一致性的增强机制,旨在突破传统知识图谱在动态关系补全与隐含关联挖掘上的局限。相关热点事件包括神经符号推理的融合与可解释人工智能的发展,该数据集为评估模型在真实场景下的推理鲁棒性提供了关键基准,对推进智能问答、语义搜索等应用具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作