five

GuideX_pre-training_data

收藏
Hugging Face2025-06-02 更新2025-06-03 收录
下载链接:
https://huggingface.co/datasets/HiTZ/GuideX_pre-training_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,如ids,task_id,scorer_cls,labels,text和unlabelled_sentence。数据集分为训练集和验证集,训练集包含10000个示例,验证集包含404个示例。数据集的具体应用场景和任务目标在README中未明确说明。
提供机构:
HiTZ zentroa
创建时间:
2025-06-02
搜集汇总
数据集介绍
main_image_url
构建方式
在信息抽取领域,大规模标注数据的匮乏长期制约着模型的泛化能力。GuideX预训练数据集采用创新的四阶段自动化流程构建:首先通过大语言模型对原始文档进行概念摘要,随后将关键信息组织为结构化JSON表示;基于此生成包含实体类型描述的Python数据类作为标注指南,最终直接从文本中抽取实例填充到定义的模式中。该流程依托Llama 3.1-70B-Instruct模型实现,并通过代码执行验证机制过滤不一致的标注,从FineWeb-edu语料中筛选出万篇文档形成高质量标注集合。
特点
该数据集最显著的特征在于其代码式的结构化标注范式,每个样本的标签字段实为可执行的Python脚本,同时包含数据类定义和实体实例列表。这种设计使得标注模式天然兼容GoLLIE等现代信息抽取框架,支持动态的实体类型扩展。数据集涵盖医学、经济、历史等多元领域,包含28677种独特实体标签,对35个标准评测集的标签覆盖率达42.4%,既包含通用命名实体也囊括大量领域特异性概念。其验证集经过严格的代码级一致性检查,有效降低了合成数据中常见的幻觉噪声。
使用方法
作为专为零样本信息抽取设计的预训练资源,该数据集适用于大语言模型的多种训练范式。研究者可直接将其用于基座模型的持续预训练,或对已指令调优的模型进行领域适配微调,例如基于Llama-3.1架构训练专用信息抽取模型。使用时需注意其代码式标注的特殊性,建议配合支持结构化输入的框架如GoLLIE进行解析,将标签字段中的Python类定义转化为可操作的标注规范。由于标注源自模型生成,建议在关键应用场景中与人工标注数据结合使用以提升可靠性。
背景与挑战
背景概述
信息抽取作为自然语言处理的核心任务,长期面临领域适应性的瓶颈。2025年,由巴斯克大学HiTZ语言技术中心与慕尼黑工业大学联合发布的GuideX预训练数据集,通过自动化生成结构化标注数据,旨在突破传统人工标注的局限性。该数据集基于FineWeb-edu语料库,采用Llama 3.1-70B-Instruct模型实现了从文档摘要、结构化表示到标注指南生成的全流程自动化,覆盖医学、经济学等多元领域的28,677种实体类型,为零样本信息抽取研究提供了重要基础设施。
当前挑战
信息抽取领域长期受限于标注成本与领域泛化能力的矛盾,传统方法难以快速适应新兴领域的实体类型识别需求。数据集构建过程中,需克服大语言模型生成内容的幻觉问题与逻辑不一致性,通过代码执行验证机制过滤无效标注。同时,高度专业化的领域如事件抽取(如ACE05-RE)与通用实体识别存在显著标注差异,要求生成算法在保持多样性的同时确保语义准确性,这对自动化流水线的鲁棒性提出了严峻考验。
常用场景
经典使用场景
在信息抽取领域,GuideX预训练数据集通过自动化生成结构化标注数据,为大语言模型的零样本泛化能力提供了关键支持。该数据集最经典的应用场景是作为预训练资源,用于提升模型在命名实体识别等任务上的表现,特别是在面对未见过的领域时能够保持稳定的性能。其独特的代码风格标注格式与现代信息抽取框架高度兼容,为模型训练提供了标准化输入。
解决学术问题
该数据集有效解决了信息抽取领域适应性的核心难题,通过自动化流程替代传统人工标注,显著降低了领域迁移的成本。其生成的28,677种实体标签覆盖了医疗、经济、历史等多领域,有效弥补了传统标注数据在标签多样性上的不足。这种数据生成范式为研究零样本学习机制提供了重要实验基础,推动了信息抽取技术的普惠化发展。
衍生相关工作
该数据集催生了多项创新性研究,例如HiTZ团队基于此开发的Llama-3.1-GuideX-8B模型,在零样本信息抽取任务中表现出色。其标注方法论启发了GoLLIE框架的演进,推动代码式信息抽取成为新范式。相关技术路径还被KnowCoder等项目借鉴,形成了以自动化标注为核心的技术生态体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作