Viscacha
收藏github2024-02-21 更新2024-05-31 收录
下载链接:
https://github.com/hccngu/Viscacha
下载链接
链接失效反馈官方服务:
资源简介:
通用信息抽取数据集收集
General Information Extraction Dataset Collection
创建时间:
2023-05-29
原始信息汇总
数据集合 (Data Collection)
数据统计
| 数据集 | 领域 | 数目 | 语言 | 任务 | 来源 |
|---|---|---|---|---|---|
| DuIE2.0 | 人文 | 191K | CN | RE | https://www.luge.ai/#/luge/dataDetail?id=5 |
| DuEE1.0 | 新闻 | 17K | CN | EE | https://www.luge.ai/#/luge/dataDetail?id=6 |
| DuEE-fin | 金融 | 11.7K | CN | EE | https://www.luge.ai/#/luge/dataDetail?id=7 |
| IREE | 金融 | 50K | CN | EE | https://www.luge.ai/#/luge/dataDetail?id=72 |
| SanWen | 中国文学 | 21K | CN | RE | https://github.com/thunlp/Chinese_NRE/tree/master/data/SanWen |
| BosonNER | 通用 | 10K | CN | NER | https://github.com/HuHsinpang/BosonNER-Pretreatment/tree/master/boson/data |
| MSRANER | 通用 | 48K | CN | NER | https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA |
| FinRe | 金融 | 18K | CN | RE | https://github.com/thunlp/Chinese_NRE/tree/master/data/FinRE |
| SemEval-2010 Task 8 | 通用 | 10K | EN | RE | https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh |
| TACRED | 通用 | 106K | EN | NER, RE | https://github.com/yuhaozhang/tacred-relation/tree/master/dataset/tacred |
| NYT10 | 通用 | 694K | EN | RE | https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh |
| DocRED | 通用 | UNK | EN | RE | https://drive.google.com/drive/folders/1c5-0YwnoJx8NS6CV2f-NoTHR__BdkNqw |
| CLUENER2020 | 通用 | 12K | CN | NER | https://www.cluebenchmarks.com/introduce.html |
| Title2Event | 新闻 | 42K | CN | EE | https://open-event-hub.github.io/title2event/ |
| BioRED | 生物医学 | UNK | EN | RE | https://github.com/ncbi/BioRED |
| 文娱NER-Youku | 文娱 | 10K | CN | NER | https://github.com/allanj/ner_incomplete_annotation/tree/master/data/youku |
| CONLL2003 | 新闻 | 284K | EN | NER | https://github.com/allanj/ner_incomplete_annotation/tree/master/data/conll2003 |
| 电商NER-Taobao | 电商 | 8K | CN | NER | https://github.com/allanj/ner_incomplete_annotation/tree/master/data/ecommerce |
| 财经NER-新浪财经 | 金融 | 5K | CN | NER | https://github.com/jiesutd/LatticeLSTM/tree/master/data |
| 人民日报-2014 | 新闻 | 286K | CN | NER | https://github.com/zjy-ucas/ChineseNER/tree/master/data |
| 人民日报-1998 | 新闻 | 28K | CN | NER | https://github.com/zjy-ucas/ChineseNER/tree/master/data |
| 智慧教育开放知识数据集-数据结构 | 教育 | 176K | CN | RE | https://blog.csdn.net/qq_36426650/article/details/87719204 |
| 智慧教育开放知识数据集-初中数学 | 教育 | 6K | CN | NER | https://blog.csdn.net/qq_36426650/article/details/87719204 |
| 智慧教育开放知识数据集-高中数学 | 教育 | 2K | CN | NER | https://blog.csdn.net/qq_36426650/article/details/87719204 |
| 军事装备试验鉴定-NER | 军事 | 0.8K | CN | NER | https://github.com/hy-struggle/ccks_ner/tree/master/militray/PreModel_Encoder_CRF/data |
| CMeEE | 医学 | 23K | CN | NER | https://tianchi.aliyun.com/dataset/95414 |
| CMeIE | 医学 | 22K | CN | RE | https://tianchi.aliyun.com/dataset/95414 |
| 银行借贷2021-NER | 金融 | 10K | CN | NER | https://www.heywhale.com/mw/dataset/617969ec768f3b0017862990/file |
| SKE 2019 | 通用 | 210K | CN | RE | https://toscode.gitee.com/yiweilu/Entity-Relation-Extraction/tree/master/raw_data |
| 任务对话2018-NER | 通用 | 21K | CN | NER | http://tcci.ccf.org.cn/conference/2018/taskdata.php# |
| CoNLL04 | 新闻 | 9K | EN | RE | http://lavis.cs.hs-rm.de/storage/spert/public/datasets/conll04/ |
| OntoNotes 4.0 | 新闻 | 50K | CN | NER | https://www.datafountain.cn/competitions/510/datasets |
| CCIR2021-NER | 新闻 | 15K | CN | NER | https://www.datafountain.cn/competitions/510 |
| firefly-train-1.1M | 通用 | 50K | CN | NER | https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M |
| IE INSTRUCTIONS | 通用 | UNK | EN | NER, RE, EE | https://drive.google.com/file/d/1T-5IbocGka35I7X3CE6yKe5N_Xg2lVKT/view |
| CCKS2017-NER | 医疗 | 2K | CN | NER | https://www.biendata.xyz/competition/CCKS2017_1/ |
| CCKS2018-NER | 医疗 | 0.8K | CN | NER | https://www.biendata.xyz/competition/CCKS2018_1/ |
| CCKS2019-NER | 医疗 | 1.4K | CN | NER | https://www.biendata.xyz/competition/ccks_2019_1/ |
| CCKS2020-NER | 医疗 | 1.4K | CN | NER | https://www.biendata.xyz/competition/ccks_2020_2_1/ |
| 通用 | 1.8K | CN | NER | https://github.com/hltcoe/golden-horse | |
| MMC | 医疗 | 3.5K | CN | NER | https://tianchi.aliyun.com/dataset/88836 |
| Resume | 人文 | 4.8K | CN | NER | https://github.com/jiesutd/LatticeLSTM/tree/master/ResumeNER |
| SanWen-NER | 中国文学 | 28K | CN | NER | https://github.com/thunlp/Chinese_NRE/tree/master/data/SanWen |
| WanChuang | 医疗 | 1.2K | CN | NER | https://tianchi.aliyun.com/competition/entrance/531827/introduction |
| GAIIC2022_task2 | 电商 | 40K | CN | NER | https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/2 |
| IMCS21_task1 | 医疗 | 98K | CN | NER | http://www.fudan-disc.com/sharedtask/imcs21/index.html |
数据格式
我们集合中的所有数据均已被转化成相同的格式,每个样本的格式如下:
NER
{ "sentence": string, "entities": { "name": string, "type": string, "pos": [ int, int ] } }
RE
{ "sentence": string, "relations": [ { "head": { "name": string, "type": string, "pos": [int, int] }, "type": string, "tail": { "name": string, "type": string, "pos": [int, int] } } ] }
EE
{ "sentence": string, "events": [ { "trigger": string, "type": string, "pos": [ int, int ] } ] }
搜集汇总
数据集介绍

构建方式
Viscacha数据集通过广泛收集和整合多个领域的信息抽取任务数据构建而成。其构建过程包括从公开数据源获取原始数据,并对其进行统一格式化处理,以确保数据的一致性和可用性。数据集涵盖了命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等任务,涉及多个领域如新闻、金融、医疗、教育等。通过这种系统化的数据收集和标准化处理,Viscacha为信息抽取任务提供了一个全面且多样化的数据资源。
使用方法
Viscacha数据集的使用方法包括数据加载、模型训练和评估。用户可以通过GitHub或Hugging Face平台获取数据集,并利用其统一的格式进行模型训练。数据集适用于多种信息抽取任务,用户可以根据具体需求选择相应的任务类型进行训练。此外,数据集还支持与其他大型语言模型(如LLaMA、ChatGLM等)的集成,用户可以通过提供的接口轻松调用和对比不同模型的性能。通过这种方式,Viscacha为信息抽取任务的研究和应用提供了灵活且高效的解决方案。
背景与挑战
背景概述
Viscacha数据集是一个专注于通用信息抽取任务的统一数据集集合,旨在为自然语言处理领域的研究者提供一个广泛且多样化的数据资源。该数据集由多个子集构成,涵盖了命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等任务,涉及多个领域如新闻、金融、医疗、教育等。Viscacha的创建时间可追溯至2023年,由多个研究机构和开源社区共同贡献,其核心研究问题在于如何通过统一的数据格式和丰富的指令集合,提升大型语言模型在信息抽取任务中的表现。该数据集的影响力主要体现在其推动了信息抽取模型的开源进程,降低了相关任务的难度,并为研究者提供了一个标准化的基准。
当前挑战
Viscacha数据集在构建过程中面临了多方面的挑战。首先,信息抽取任务本身具有高度的复杂性,尤其是在处理多语言、多领域数据时,如何确保数据的准确性和一致性是一个难题。其次,数据集的统一格式转换过程中,不同来源的数据结构和标注标准差异较大,导致数据预处理和格式化的工作量巨大。此外,数据集的多样性和规模也对模型的训练和评估提出了更高的要求,如何在不损失数据质量的前提下,高效地整合和扩展数据集,是另一个亟待解决的问题。最后,数据集的开放性和可扩展性要求其在未来能够持续更新和优化,以应对不断变化的自然语言处理需求。
常用场景
经典使用场景
Viscacha数据集广泛应用于自然语言处理领域,特别是在信息抽取任务中,如命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)。该数据集通过统一的格式和广泛的指令集合,为研究人员提供了一个标准化的平台,用于训练和评估各种大型语言模型(LLM)及其参数效率方法(如LoRA和P-Tuning)。
解决学术问题
Viscacha数据集解决了信息抽取领域中的多个学术问题,包括如何有效地统一不同来源的数据格式、如何通过指令微调提升模型的推理能力,以及如何降低信息抽取任务的难度。该数据集通过集成多种任务和语言,为研究人员提供了一个全面的实验平台,推动了信息抽取技术的发展。
实际应用
在实际应用中,Viscacha数据集被用于构建和优化信息抽取系统,特别是在金融、医疗、新闻和教育等领域。通过该数据集训练的模型能够自动识别文本中的关键实体、关系和事件,从而支持智能问答、知识图谱构建、舆情分析等多种实际应用场景。
数据集最近研究
最新研究方向
在信息抽取领域,Viscacha数据集的最新研究方向聚焦于如何通过统一的数据格式和指令集,提升大型语言模型(LLMs)在命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等任务中的表现。随着自然语言处理技术的快速发展,信息抽取作为其核心任务之一,面临着数据多样性和模型泛化能力的挑战。Viscacha通过整合多领域、多语言的数据集,并采用统一的指令微调(Instruction Fine-Tuning)方法,旨在增强模型在处理复杂文本时的推理能力和跨领域适应性。此外,结合链式思维(Chain-of-Thought, CoT)的推理机制,Viscacha进一步推动了模型在中文和多语言环境下的表现,为信息抽取任务的开源模型研究提供了重要的数据支持和实证参考。
以上内容由遇见数据集搜集并总结生成



