five

figer|实体识别数据集|自然语言处理数据集

收藏
huggingface2024-12-31 更新2025-01-01 收录
实体识别
自然语言处理
下载链接:
https://huggingface.co/datasets/DGME/figer
下载链接
链接失效反馈
资源简介:
该数据集包含多种类别的实体,如人物、地点、组织等。数据集的特征包括mention_span、left_context_token、right_context_token和y_str。数据分割为训练集和测试集,训练集包含2,690,286个示例,测试集包含563个示例。数据集的总大小为799,911,255字节,下载大小为278,313,498字节。
创建时间:
2024-12-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
FIGER数据集的构建过程基于大规模文本语料,通过自动化标注与人工校验相结合的方式完成。数据来源涵盖多样化的文本类型,包括新闻文章、社交媒体内容等。标注过程中,系统首先识别文本中的实体提及,随后根据预定义的类别体系进行实体类型标注。为确保标注质量,人工校验环节对自动化标注结果进行了细致的审查与修正,最终形成了高质量的训练与测试数据集。
特点
FIGER数据集以其广泛的实体类别覆盖和丰富的上下文信息为显著特点。数据集包含超过200种细粒度的实体类型,涵盖了人物、地点、组织等多个领域。每个实体提及均附有左右上下文信息,为模型提供了丰富的语境线索。此外,数据集的规模庞大,训练集包含超过260万条实例,测试集则提供了563条实例,确保了模型训练与评估的充分性。
使用方法
FIGER数据集主要用于细粒度实体识别任务的研究与开发。用户可通过加载数据集中的训练集进行模型训练,利用测试集进行性能评估。数据集中的每个实例包含实体提及、左右上下文信息以及实体类型标签,用户可根据需要提取这些信息进行模型输入与输出设计。此外,数据集支持多种机器学习框架,用户可灵活选择适合的工具进行实验与开发。
背景与挑战
背景概述
FIGER数据集是一个广泛用于细粒度实体分类的英文语料库,由华盛顿大学的研究团队于2012年首次发布。该数据集的核心研究问题在于如何准确识别和分类文本中的实体,尤其是那些具有多层次和复杂语义结构的实体。FIGER数据集通过提供丰富的实体类别和上下文信息,显著推动了自然语言处理领域中实体识别和分类技术的发展。其影响力不仅体现在学术研究中,还在实际应用中如信息抽取、知识图谱构建等方面发挥了重要作用。
当前挑战
FIGER数据集在解决细粒度实体分类问题时面临多重挑战。首先,实体类别的多样性和复杂性使得分类任务变得极为困难,尤其是在处理具有多重语义的实体时。其次,数据集的构建过程中,如何确保标注的一致性和准确性是一个关键问题,尤其是在处理大规模文本数据时。此外,上下文信息的利用和实体边界的精确识别也是该数据集面临的技术难题。这些挑战不仅影响了模型的性能,也对数据集的扩展和应用提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,figer数据集广泛应用于细粒度实体识别任务。该数据集通过提供丰富的上下文信息和多样化的实体类别,帮助研究人员训练和评估模型在复杂文本环境中的实体识别能力。特别是在处理多义词和上下文依赖的实体时,figer数据集展现了其独特的优势。
衍生相关工作
基于figer数据集,研究人员开发了多种先进的细粒度实体识别模型,如基于深度学习的多任务学习模型和上下文感知的实体识别算法。这些工作不仅提升了实体识别的准确率,还为相关领域的研究提供了新的思路和方法。
数据集最近研究
最新研究方向
在自然语言处理领域,实体类型识别(Entity Typing)作为信息抽取的关键任务之一,近年来受到广泛关注。FIGER数据集作为该领域的重要资源,提供了丰富的实体类型标注,涵盖了从人物、地点到事件、产品等多个维度。当前研究热点主要集中在如何利用预训练语言模型(如BERT、GPT等)提升实体类型识别的准确性和泛化能力。同时,跨领域实体类型迁移学习、细粒度实体类型识别以及低资源环境下的实体类型推断也成为前沿研究方向。这些研究不仅推动了实体类型识别技术的发展,也为知识图谱构建、问答系统等下游任务提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

China Kadoorie Biobank (CKB)

China Kadoorie Biobank(CKB)是一项大规模的前瞻性队列研究数据库,旨在通过长期跟踪调查收集中国人群的健康相关信息,包括生活方式、环境暴露、生物样本以及疾病发生发展情况,为慢性病的病因研究和防控策略制定提供科学依据。

www.ckbiobank.org 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录