IEPile 大规模信息抽取语料库
收藏超神经2024-03-23 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/30064
下载链接
链接失效反馈官方服务:
资源简介:
IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。
IEPile is a large-scale high-quality bilingual (Chinese-English) information extraction (IE) instruction tuning dataset developed by Zhejiang University, covering three core subtasks: Named Entity Recognition (NER), Relation Extraction (RE), and Event Extraction (EE). This dataset contains approximately 2 million instruction samples, totaling around 320 million Tokens, and spans multiple domains including general, medical, financial and others.
创建时间:
2024-03-12
搜集汇总
数据集介绍

背景与挑战
背景概述
IEPile是浙江大学构建的大规模双语信息抽取指令微调数据集,覆盖命名实体识别、关系抽取和事件抽取三大任务,包含约200万条样本和3.2亿Token。该数据集通过整合多个领域的数据集并采用特定方法确保高质量,旨在提升大型模型在信息抽取任务中的零样本泛化能力。
以上内容由遇见数据集搜集并总结生成



