five

zjunlp/iepile|信息抽取数据集|大规模语料库数据集

收藏
hugging_face2024-04-11 更新2024-05-25 收录
信息抽取
大规模语料库
下载链接:
https://hf-mirror.com/datasets/zjunlp/iepile
下载链接
链接失效反馈
资源简介:
IEPile是一个大规模的信息抽取语料库,专注于基于模式的信息抽取任务。该数据集整合了26个英文和7个中文的信息抽取数据集,涵盖了通用、医疗、金融等多个领域。通过提出的“基于模式的批量指令生成方法”,构建了一个包含约0.32B个标记的高质量信息抽取微调数据集。数据集用于微调Baichuan2和LLaMA2模型,实验表明微调后的模型在全监督训练集上表现优异,并在零样本信息抽取任务中取得了显著提升。数据格式包括任务、来源、指令和输出四个字段,指令采用JSON字符串格式。
提供机构:
zjunlp
原始信息汇总

数据集概述

数据集名称

IEPile: A Large-Scale Information Extraction Corpus

数据集描述

IEPile是一个大规模的信息提取数据集,专注于基于schema的指令生成方法。该数据集整合了26个英文和7个中文信息提取(IE)数据集,覆盖多个领域,如通用、医疗、金融等。

数据集内容

  • 语言: 英文(en)和中文(zh)
  • 任务类别: 文本到文本生成(text2text-generation)
  • 数据格式: 每个实例包含四个字段:task, source, instruction, output。其中instruction采用JSON-like字符串结构,包含instruction, schema, input三个主要组件。
  • 数据集结构: 包含训练集(train.json)、验证集(dev.json)以及针对英文和中文的统一格式数据(IE-en, IE-zh)。

数据集使用

  • 模型训练: 基于IEPile,使用Lora技术对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调,显著提升了零样本信息提取任务的性能。
  • 数据集更新: 数据集可能会进行更新,建议使用最新版本。

许可证

数据集遵循CC BY-NC-SA 4.0许可协议。

数据集限制

  • 主要关注schema-based IE,未探索Open IE。
  • 目前仅包含英文和中文数据,未来计划扩展到更多语言。
  • 由于计算资源限制,仅评估了Baichuan和LLaMA模型。

引用信息

若使用IEPile或相关代码,请引用以下文献:

@article{DBLP:journals/corr/abs-2402.14710, author = {Honghao Gui and Lin Yuan and Hongbin Ye and Ningyu Zhang and Mengshu Sun and Lei Liang and Huajun Chen}, title = {IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus}, journal = {CoRR}, volume = {abs/2402.14710}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2402.14710}, doi = {10.48550/ARXIV.2402.14710}, eprinttype = {arXiv}, eprint = {2402.14710}, timestamp = {Tue, 09 Apr 2024 07:32:43 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2402-14710.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
IEPile数据集的构建过程着重于指令型信息抽取,因此指令中的模式构建至关重要。该数据集通过整合26个英文信息抽取数据集和7个中文信息抽取数据集,采用‘模式化批量指令生成方法’,成功构建了一个大规模、高质量的信息抽取微调数据集,包含约0.32亿个标记。此方法解决了传统模式处理策略中存在的两个主要问题:指令中模式查询数量不一致和指令中模式区分不足。通过引入硬负模式和批量指令生成策略,确保了训练和评估阶段模式查询数量的一致性,并提高了模式间的区分度。
特点
IEPile数据集的主要特点在于其大规模和高质量的信息抽取数据,涵盖了多个领域,包括通用、医疗和金融等。该数据集支持多语言(英语和中文),并采用了模式化批量指令生成方法,确保了指令中模式查询数量的一致性和模式间的区分度。此外,IEPile数据集还支持多种信息抽取任务,如命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)等,为模型训练提供了丰富的数据资源。
使用方法
使用IEPile数据集进行模型训练时,用户需访问官方GitHub仓库获取详细的训练和推理指南。数据集中的每个实例包含四个字段:任务类型、数据来源、指令和输出。指令字段采用JSON字符串格式,包含任务描述、模式列表和输入文本。输出字段为字典格式的JSON字符串,键为模式,值为提取的内容。用户可以根据具体任务需求,选择合适的子集进行模型训练和评估。
背景与挑战
背景概述
IEPile数据集是由浙江大学自然语言处理实验室(ZJUNLP)的研究团队创建的一个大规模信息抽取语料库。该数据集的核心研究问题是如何通过模式驱动的批量指令生成方法,构建高质量的信息抽取数据集,以提升模型在零样本信息抽取任务中的表现。IEPile数据集的创建时间为2024年,主要研究人员包括Honghao Gui、Lin Yuan、Hongbin Ye、Ningyu Zhang等。该数据集整合了26个英文和7个中文信息抽取数据集,覆盖了通用、医疗、金融等多个领域,对信息抽取领域的研究具有重要影响。
当前挑战
IEPile数据集在构建过程中面临的主要挑战包括:1) 模式查询数量在训练和评估阶段的不一致性,可能导致模型性能下降;2) 指令中模式之间的区分度不足,可能导致大型语言模型(LLMs)的混淆。此外,该数据集主要关注模式驱动的信息抽取,限制了其在非模式化指令中的应用。同时,IEPile目前仅包含英文和中文数据,未来希望扩展到更多语言。从模型角度来看,由于计算资源限制,研究仅评估了Baichuan和LLaMA模型,未来可应用于更多大型语言模型。
常用场景
经典使用场景
IEPile数据集在信息抽取领域中被广泛应用于训练和评估模型,特别是在命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)等任务中。通过提供大规模、高质量的标注数据,IEPile帮助研究人员和开发者训练出更精确的信息抽取模型,从而提升模型在实际应用中的表现。
实际应用
在实际应用中,IEPile数据集被用于训练和优化各种信息抽取模型,广泛应用于金融、医疗、法律等多个行业。例如,在金融领域,IEPile可以帮助自动提取和分析新闻中的关键信息,如公司名称、股票代码和交易事件,从而提高金融分析的效率和准确性。
衍生相关工作
基于IEPile数据集,研究者们开发了多种信息抽取模型,如Baichuan2-IEPile和LLaMA2-IEPile,这些模型在多个公开数据集上表现优异。此外,IEPile还启发了许多相关的研究工作,包括但不限于跨语言信息抽取、零样本学习和大规模预训练模型的微调,进一步推动了信息抽取技术的前沿研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录