E-NER|法律文本数据集|命名实体识别数据集
收藏E-NER 数据集
数据集概述
- 数据来源:包含来自美国 SEC EDGAR 数据库的 52 份文件。
- 数据标注:命名实体标签为手工标注。
命名实体分类
- 完整分类:数据集中的命名实体分为 7 个类别:Person, Court, Business, Government, Location, Legislation/Act, Miscellaneous(以及用于非命名实体的类别 "Outside")。
- 简化分类:在 "edgar_4.csv" 文件中,命名实体类别简化为 4 个:Person, Organization, Location, Miscellaneous。其中,Court, Business 和 Government 合并为 Organization,Legislation/Act 和 Miscellaneous 合并为 Miscellaneous。
文件说明
- all.csv:包含标注的文件,每行一个词,后跟命名实体标签,词和标签之间用制表符分隔。
- edgar_4.csv:与 "all.csv" 包含相同的数据,但命名实体类别简化为 4 个。
许可证

- 1E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text伦敦大学学院计算机科学系 · 2022年
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
M4-SAR
M4-SAR是一个多分辨率、多极化、多场景、多源数据集,用于光学与合成孔径雷达(SAR)融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建,包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别,并使用公开的光学和SAR数据,包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战,该研究提出了一种半监督的光学辅助标注策略,利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性,为多源融合目标检测任务提供大规模、高质量、标准化的数据集,并推动相关研究的发展。
arXiv 收录
Natural Questions
Natural Questions (NQ) 包含真实用户向Google搜索提出的问题,以及注释者从维基百科找到的答案。NQ旨在用于训练和评估自动问答系统。
github 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录