Viscacha

github2024-02-21 更新2024-05-31 收录

下载链接：

https://github.com/hccngu/Viscacha

下载链接

链接失效反馈

官方服务：

资源简介：

通用信息抽取数据集收集

General Information Extraction Dataset Collection

创建时间：

2023-05-29

原始信息汇总

数据集合 (Data Collection)

数据统计

数据集	领域	数目	语言	任务	来源
DuIE2.0	人文	191K	CN	RE	https://www.luge.ai/#/luge/dataDetail?id=5
DuEE1.0	新闻	17K	CN	EE	https://www.luge.ai/#/luge/dataDetail?id=6
DuEE-fin	金融	11.7K	CN	EE	https://www.luge.ai/#/luge/dataDetail?id=7
IREE	金融	50K	CN	EE	https://www.luge.ai/#/luge/dataDetail?id=72
SanWen	中国文学	21K	CN	RE	https://github.com/thunlp/Chinese_NRE/tree/master/data/SanWen
BosonNER	通用	10K	CN	NER	https://github.com/HuHsinpang/BosonNER-Pretreatment/tree/master/boson/data
MSRANER	通用	48K	CN	NER	https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
FinRe	金融	18K	CN	RE	https://github.com/thunlp/Chinese_NRE/tree/master/data/FinRE
SemEval-2010 Task 8	通用	10K	EN	RE	https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh
TACRED	通用	106K	EN	NER, RE	https://github.com/yuhaozhang/tacred-relation/tree/master/dataset/tacred
NYT10	通用	694K	EN	RE	https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh
DocRED	通用	UNK	EN	RE	https://drive.google.com/drive/folders/1c5-0YwnoJx8NS6CV2f-NoTHR__BdkNqw
CLUENER2020	通用	12K	CN	NER	https://www.cluebenchmarks.com/introduce.html
Title2Event	新闻	42K	CN	EE	https://open-event-hub.github.io/title2event/
BioRED	生物医学	UNK	EN	RE	https://github.com/ncbi/BioRED
文娱NER-Youku	文娱	10K	CN	NER	https://github.com/allanj/ner_incomplete_annotation/tree/master/data/youku
CONLL2003	新闻	284K	EN	NER	https://github.com/allanj/ner_incomplete_annotation/tree/master/data/conll2003
电商NER-Taobao	电商	8K	CN	NER	https://github.com/allanj/ner_incomplete_annotation/tree/master/data/ecommerce
财经NER-新浪财经	金融	5K	CN	NER	https://github.com/jiesutd/LatticeLSTM/tree/master/data
人民日报-2014	新闻	286K	CN	NER	https://github.com/zjy-ucas/ChineseNER/tree/master/data
人民日报-1998	新闻	28K	CN	NER	https://github.com/zjy-ucas/ChineseNER/tree/master/data
智慧教育开放知识数据集-数据结构	教育	176K	CN	RE	https://blog.csdn.net/qq_36426650/article/details/87719204
智慧教育开放知识数据集-初中数学	教育	6K	CN	NER	https://blog.csdn.net/qq_36426650/article/details/87719204
智慧教育开放知识数据集-高中数学	教育	2K	CN	NER	https://blog.csdn.net/qq_36426650/article/details/87719204
军事装备试验鉴定-NER	军事	0.8K	CN	NER	https://github.com/hy-struggle/ccks_ner/tree/master/militray/PreModel_Encoder_CRF/data
CMeEE	医学	23K	CN	NER	https://tianchi.aliyun.com/dataset/95414
CMeIE	医学	22K	CN	RE	https://tianchi.aliyun.com/dataset/95414
银行借贷2021-NER	金融	10K	CN	NER	https://www.heywhale.com/mw/dataset/617969ec768f3b0017862990/file
SKE 2019	通用	210K	CN	RE	https://toscode.gitee.com/yiweilu/Entity-Relation-Extraction/tree/master/raw_data
任务对话2018-NER	通用	21K	CN	NER	http://tcci.ccf.org.cn/conference/2018/taskdata.php#
CoNLL04	新闻	9K	EN	RE	http://lavis.cs.hs-rm.de/storage/spert/public/datasets/conll04/
OntoNotes 4.0	新闻	50K	CN	NER	https://www.datafountain.cn/competitions/510/datasets
CCIR2021-NER	新闻	15K	CN	NER	https://www.datafountain.cn/competitions/510
firefly-train-1.1M	通用	50K	CN	NER	https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
IE INSTRUCTIONS	通用	UNK	EN	NER, RE, EE	https://drive.google.com/file/d/1T-5IbocGka35I7X3CE6yKe5N_Xg2lVKT/view
CCKS2017-NER	医疗	2K	CN	NER	https://www.biendata.xyz/competition/CCKS2017_1/
CCKS2018-NER	医疗	0.8K	CN	NER	https://www.biendata.xyz/competition/CCKS2018_1/
CCKS2019-NER	医疗	1.4K	CN	NER	https://www.biendata.xyz/competition/ccks_2019_1/
CCKS2020-NER	医疗	1.4K	CN	NER	https://www.biendata.xyz/competition/ccks_2020_2_1/
WeiBo	通用	1.8K	CN	NER	https://github.com/hltcoe/golden-horse
MMC	医疗	3.5K	CN	NER	https://tianchi.aliyun.com/dataset/88836
Resume	人文	4.8K	CN	NER	https://github.com/jiesutd/LatticeLSTM/tree/master/ResumeNER
SanWen-NER	中国文学	28K	CN	NER	https://github.com/thunlp/Chinese_NRE/tree/master/data/SanWen
WanChuang	医疗	1.2K	CN	NER	https://tianchi.aliyun.com/competition/entrance/531827/introduction
GAIIC2022_task2	电商	40K	CN	NER	https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/2
IMCS21_task1	医疗	98K	CN	NER	http://www.fudan-disc.com/sharedtask/imcs21/index.html

数据格式

我们集合中的所有数据均已被转化成相同的格式，每个样本的格式如下：

NER

{ "sentence": string, "entities": { "name": string, "type": string, "pos": [ int, int ] } }

RE

{ "sentence": string, "relations": [ { "head": { "name": string, "type": string, "pos": [int, int] }, "type": string, "tail": { "name": string, "type": string, "pos": [int, int] } } ] }

EE

{ "sentence": string, "events": [ { "trigger": string, "type": string, "pos": [ int, int ] } ] }

搜集汇总

数据集介绍

构建方式

Viscacha数据集通过广泛收集和整合多个领域的信息抽取任务数据构建而成。其构建过程包括从公开数据源获取原始数据，并对其进行统一格式化处理，以确保数据的一致性和可用性。数据集涵盖了命名实体识别（NER）、关系抽取（RE）和事件抽取（EE）等任务，涉及多个领域如新闻、金融、医疗、教育等。通过这种系统化的数据收集和标准化处理，Viscacha为信息抽取任务提供了一个全面且多样化的数据资源。

使用方法

Viscacha数据集的使用方法包括数据加载、模型训练和评估。用户可以通过GitHub或Hugging Face平台获取数据集，并利用其统一的格式进行模型训练。数据集适用于多种信息抽取任务，用户可以根据具体需求选择相应的任务类型进行训练。此外，数据集还支持与其他大型语言模型（如LLaMA、ChatGLM等）的集成，用户可以通过提供的接口轻松调用和对比不同模型的性能。通过这种方式，Viscacha为信息抽取任务的研究和应用提供了灵活且高效的解决方案。

背景与挑战

背景概述

Viscacha数据集是一个专注于通用信息抽取任务的统一数据集集合，旨在为自然语言处理领域的研究者提供一个广泛且多样化的数据资源。该数据集由多个子集构成，涵盖了命名实体识别（NER）、关系抽取（RE）和事件抽取（EE）等任务，涉及多个领域如新闻、金融、医疗、教育等。Viscacha的创建时间可追溯至2023年，由多个研究机构和开源社区共同贡献，其核心研究问题在于如何通过统一的数据格式和丰富的指令集合，提升大型语言模型在信息抽取任务中的表现。该数据集的影响力主要体现在其推动了信息抽取模型的开源进程，降低了相关任务的难度，并为研究者提供了一个标准化的基准。

当前挑战

Viscacha数据集在构建过程中面临了多方面的挑战。首先，信息抽取任务本身具有高度的复杂性，尤其是在处理多语言、多领域数据时，如何确保数据的准确性和一致性是一个难题。其次，数据集的统一格式转换过程中，不同来源的数据结构和标注标准差异较大，导致数据预处理和格式化的工作量巨大。此外，数据集的多样性和规模也对模型的训练和评估提出了更高的要求，如何在不损失数据质量的前提下，高效地整合和扩展数据集，是另一个亟待解决的问题。最后，数据集的开放性和可扩展性要求其在未来能够持续更新和优化，以应对不断变化的自然语言处理需求。

常用场景

经典使用场景

Viscacha数据集广泛应用于自然语言处理领域，特别是在信息抽取任务中，如命名实体识别（NER）、关系抽取（RE）和事件抽取（EE）。该数据集通过统一的格式和广泛的指令集合，为研究人员提供了一个标准化的平台，用于训练和评估各种大型语言模型（LLM）及其参数效率方法（如LoRA和P-Tuning）。

解决学术问题

Viscacha数据集解决了信息抽取领域中的多个学术问题，包括如何有效地统一不同来源的数据格式、如何通过指令微调提升模型的推理能力，以及如何降低信息抽取任务的难度。该数据集通过集成多种任务和语言，为研究人员提供了一个全面的实验平台，推动了信息抽取技术的发展。

实际应用

在实际应用中，Viscacha数据集被用于构建和优化信息抽取系统，特别是在金融、医疗、新闻和教育等领域。通过该数据集训练的模型能够自动识别文本中的关键实体、关系和事件，从而支持智能问答、知识图谱构建、舆情分析等多种实际应用场景。

数据集最近研究