five

Viscacha

收藏
github2024-02-21 更新2024-05-31 收录
下载链接:
https://github.com/hccngu/Viscacha
下载链接
链接失效反馈
官方服务:
资源简介:
通用信息抽取数据集收集

General Information Extraction Dataset Collection
创建时间:
2023-05-29
原始信息汇总

数据集合 (Data Collection)

数据统计

数据集 领域 数目 语言 任务 来源
DuIE2.0 人文 191K CN RE https://www.luge.ai/#/luge/dataDetail?id=5
DuEE1.0 新闻 17K CN EE https://www.luge.ai/#/luge/dataDetail?id=6
DuEE-fin 金融 11.7K CN EE https://www.luge.ai/#/luge/dataDetail?id=7
IREE 金融 50K CN EE https://www.luge.ai/#/luge/dataDetail?id=72
SanWen 中国文学 21K CN RE https://github.com/thunlp/Chinese_NRE/tree/master/data/SanWen
BosonNER 通用 10K CN NER https://github.com/HuHsinpang/BosonNER-Pretreatment/tree/master/boson/data
MSRANER 通用 48K CN NER https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
FinRe 金融 18K CN RE https://github.com/thunlp/Chinese_NRE/tree/master/data/FinRE
SemEval-2010 Task 8 通用 10K EN RE https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh
TACRED 通用 106K EN NER, RE https://github.com/yuhaozhang/tacred-relation/tree/master/dataset/tacred
NYT10 通用 694K EN RE https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh
DocRED 通用 UNK EN RE https://drive.google.com/drive/folders/1c5-0YwnoJx8NS6CV2f-NoTHR__BdkNqw
CLUENER2020 通用 12K CN NER https://www.cluebenchmarks.com/introduce.html
Title2Event 新闻 42K CN EE https://open-event-hub.github.io/title2event/
BioRED 生物医学 UNK EN RE https://github.com/ncbi/BioRED
文娱NER-Youku 文娱 10K CN NER https://github.com/allanj/ner_incomplete_annotation/tree/master/data/youku
CONLL2003 新闻 284K EN NER https://github.com/allanj/ner_incomplete_annotation/tree/master/data/conll2003
电商NER-Taobao 电商 8K CN NER https://github.com/allanj/ner_incomplete_annotation/tree/master/data/ecommerce
财经NER-新浪财经 金融 5K CN NER https://github.com/jiesutd/LatticeLSTM/tree/master/data
人民日报-2014 新闻 286K CN NER https://github.com/zjy-ucas/ChineseNER/tree/master/data
人民日报-1998 新闻 28K CN NER https://github.com/zjy-ucas/ChineseNER/tree/master/data
智慧教育开放知识数据集-数据结构 教育 176K CN RE https://blog.csdn.net/qq_36426650/article/details/87719204
智慧教育开放知识数据集-初中数学 教育 6K CN NER https://blog.csdn.net/qq_36426650/article/details/87719204
智慧教育开放知识数据集-高中数学 教育 2K CN NER https://blog.csdn.net/qq_36426650/article/details/87719204
军事装备试验鉴定-NER 军事 0.8K CN NER https://github.com/hy-struggle/ccks_ner/tree/master/militray/PreModel_Encoder_CRF/data
CMeEE 医学 23K CN NER https://tianchi.aliyun.com/dataset/95414
CMeIE 医学 22K CN RE https://tianchi.aliyun.com/dataset/95414
银行借贷2021-NER 金融 10K CN NER https://www.heywhale.com/mw/dataset/617969ec768f3b0017862990/file
SKE 2019 通用 210K CN RE https://toscode.gitee.com/yiweilu/Entity-Relation-Extraction/tree/master/raw_data
任务对话2018-NER 通用 21K CN NER http://tcci.ccf.org.cn/conference/2018/taskdata.php#
CoNLL04 新闻 9K EN RE http://lavis.cs.hs-rm.de/storage/spert/public/datasets/conll04/
OntoNotes 4.0 新闻 50K CN NER https://www.datafountain.cn/competitions/510/datasets
CCIR2021-NER 新闻 15K CN NER https://www.datafountain.cn/competitions/510
firefly-train-1.1M 通用 50K CN NER https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
IE INSTRUCTIONS 通用 UNK EN NER, RE, EE https://drive.google.com/file/d/1T-5IbocGka35I7X3CE6yKe5N_Xg2lVKT/view
CCKS2017-NER 医疗 2K CN NER https://www.biendata.xyz/competition/CCKS2017_1/
CCKS2018-NER 医疗 0.8K CN NER https://www.biendata.xyz/competition/CCKS2018_1/
CCKS2019-NER 医疗 1.4K CN NER https://www.biendata.xyz/competition/ccks_2019_1/
CCKS2020-NER 医疗 1.4K CN NER https://www.biendata.xyz/competition/ccks_2020_2_1/
WeiBo 通用 1.8K CN NER https://github.com/hltcoe/golden-horse
MMC 医疗 3.5K CN NER https://tianchi.aliyun.com/dataset/88836
Resume 人文 4.8K CN NER https://github.com/jiesutd/LatticeLSTM/tree/master/ResumeNER
SanWen-NER 中国文学 28K CN NER https://github.com/thunlp/Chinese_NRE/tree/master/data/SanWen
WanChuang 医疗 1.2K CN NER https://tianchi.aliyun.com/competition/entrance/531827/introduction
GAIIC2022_task2 电商 40K CN NER https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/2
IMCS21_task1 医疗 98K CN NER http://www.fudan-disc.com/sharedtask/imcs21/index.html

数据格式

我们集合中的所有数据均已被转化成相同的格式,每个样本的格式如下:

NER

{ "sentence": string, "entities": { "name": string, "type": string, "pos": [ int, int ] } }

RE

{ "sentence": string, "relations": [ { "head": { "name": string, "type": string, "pos": [int, int] }, "type": string, "tail": { "name": string, "type": string, "pos": [int, int] } } ] }

EE

{ "sentence": string, "events": [ { "trigger": string, "type": string, "pos": [ int, int ] } ] }

搜集汇总
数据集介绍
main_image_url
构建方式
Viscacha数据集通过广泛收集和整合多个领域的信息抽取任务数据构建而成。其构建过程包括从公开数据源获取原始数据,并对其进行统一格式化处理,以确保数据的一致性和可用性。数据集涵盖了命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等任务,涉及多个领域如新闻、金融、医疗、教育等。通过这种系统化的数据收集和标准化处理,Viscacha为信息抽取任务提供了一个全面且多样化的数据资源。
使用方法
Viscacha数据集的使用方法包括数据加载、模型训练和评估。用户可以通过GitHub或Hugging Face平台获取数据集,并利用其统一的格式进行模型训练。数据集适用于多种信息抽取任务,用户可以根据具体需求选择相应的任务类型进行训练。此外,数据集还支持与其他大型语言模型(如LLaMA、ChatGLM等)的集成,用户可以通过提供的接口轻松调用和对比不同模型的性能。通过这种方式,Viscacha为信息抽取任务的研究和应用提供了灵活且高效的解决方案。
背景与挑战
背景概述
Viscacha数据集是一个专注于通用信息抽取任务的统一数据集集合,旨在为自然语言处理领域的研究者提供一个广泛且多样化的数据资源。该数据集由多个子集构成,涵盖了命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等任务,涉及多个领域如新闻、金融、医疗、教育等。Viscacha的创建时间可追溯至2023年,由多个研究机构和开源社区共同贡献,其核心研究问题在于如何通过统一的数据格式和丰富的指令集合,提升大型语言模型在信息抽取任务中的表现。该数据集的影响力主要体现在其推动了信息抽取模型的开源进程,降低了相关任务的难度,并为研究者提供了一个标准化的基准。
当前挑战
Viscacha数据集在构建过程中面临了多方面的挑战。首先,信息抽取任务本身具有高度的复杂性,尤其是在处理多语言、多领域数据时,如何确保数据的准确性和一致性是一个难题。其次,数据集的统一格式转换过程中,不同来源的数据结构和标注标准差异较大,导致数据预处理和格式化的工作量巨大。此外,数据集的多样性和规模也对模型的训练和评估提出了更高的要求,如何在不损失数据质量的前提下,高效地整合和扩展数据集,是另一个亟待解决的问题。最后,数据集的开放性和可扩展性要求其在未来能够持续更新和优化,以应对不断变化的自然语言处理需求。
常用场景
经典使用场景
Viscacha数据集广泛应用于自然语言处理领域,特别是在信息抽取任务中,如命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)。该数据集通过统一的格式和广泛的指令集合,为研究人员提供了一个标准化的平台,用于训练和评估各种大型语言模型(LLM)及其参数效率方法(如LoRA和P-Tuning)。
解决学术问题
Viscacha数据集解决了信息抽取领域中的多个学术问题,包括如何有效地统一不同来源的数据格式、如何通过指令微调提升模型的推理能力,以及如何降低信息抽取任务的难度。该数据集通过集成多种任务和语言,为研究人员提供了一个全面的实验平台,推动了信息抽取技术的发展。
实际应用
在实际应用中,Viscacha数据集被用于构建和优化信息抽取系统,特别是在金融、医疗、新闻和教育等领域。通过该数据集训练的模型能够自动识别文本中的关键实体、关系和事件,从而支持智能问答、知识图谱构建、舆情分析等多种实际应用场景。
数据集最近研究
最新研究方向
在信息抽取领域,Viscacha数据集的最新研究方向聚焦于如何通过统一的数据格式和指令集,提升大型语言模型(LLMs)在命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等任务中的表现。随着自然语言处理技术的快速发展,信息抽取作为其核心任务之一,面临着数据多样性和模型泛化能力的挑战。Viscacha通过整合多领域、多语言的数据集,并采用统一的指令微调(Instruction Fine-Tuning)方法,旨在增强模型在处理复杂文本时的推理能力和跨领域适应性。此外,结合链式思维(Chain-of-Thought, CoT)的推理机制,Viscacha进一步推动了模型在中文和多语言环境下的表现,为信息抽取任务的开源模型研究提供了重要的数据支持和实证参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作