DFKI-SLT/DWIE|信息提取数据集|实体识别数据集

hugging_face2024-05-15 更新2024-03-04 收录

信息提取

实体识别

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/DWIE

下载链接

链接失效反馈

资源简介：

DWIE（德国之声信息抽取语料库）是一个新的数据集，专为文档级多任务信息抽取设计。它结合了四个主要的信息抽取子任务：命名实体识别、共指消解、关系抽取和实体链接。数据集包含详细的实体和关系信息，并已链接到维基百科，适用于英语文本的特征抽取和文本分类任务。

提供机构：

DFKI-SLT

原始信息汇总

数据集概述

数据集基本信息

名称: DWIE (Deutsche Welle corpus for Information Extraction)
语言: 英语
许可证: 其他
多语言性: 单语
大小: 10M<n<100M
源数据: 原始数据
任务类别: 特征提取, 文本分类
任务ID: entity-linking-classification
论文代码ID: acronym-identification
标签: Named Entity Recognition, Coreference Resolution, Relation Extraction, Entity Linking

数据集结构

数据字段

id: 文章的唯一标识符。
content: 文章的文本内容，通过src/dwie_download.py脚本下载。
tags: 用于区分训练集和测试集的文档。
mentions: 文章中实体提及的列表，每个提及包含以下键:
- begin: 提及的第一个字符的偏移量（在content字段内）。
- end: 提及的最后一个字符的偏移量（在content字段内）。
- text: 实体提及的文本表示。
- concept: 表示实体提及的实体ID（文章中的多个实体提及可以指代同一个概念）。
- candidates: 候选的维基百科链接。
- scores: 基于维基百科语料库计算的候选实体链接的先验概率。
concepts: 聚合每个实体提及的实体列表，每个实体注释包含以下键:
- concept: 文档级实体的唯一ID。
- text: 属于实体的最长提及的文本。
- keyword: 指示实体是否为关键词。
- count: 文档中属于实体的实体提及的数量。
- link: 实体链接到维基百科。
- tags: 与实体关联的多标签分类标签。
relations: 实体（概念）之间的文档级关系列表，每个关系注释包含以下键:
- s: 关系中的主体实体ID。
- p: 定义关系名称的谓词（例如，"citizen_of", "member_of"等）。
- o: 关系中的客体实体ID。
iptc: 文章的多标签IPTC分类代码。

数据集创建

数据集来源

初始数据收集和规范化: 未提供详细信息。
源语言生产者: 未提供详细信息。

注释

注释过程: 未提供详细信息。
注释者: 未提供详细信息。

个人和敏感信息

个人和敏感信息处理: 未提供详细信息。

使用数据集的考虑

数据集的社会影响: 未提供详细信息。
数据集的偏见讨论: 未提供详细信息。
其他已知限制: 未提供详细信息。

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据，这些歌曲由suno.com平台生成。数据集是多语言的，主要语言为英语，但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开，允许任何用途的使用、修改和分发。

huggingface 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话，具有用户和助手发言的文本特征，以及一个索引级别特征。数据集分为训练集，共有52001条对话记录。

huggingface 收录

Hang Seng Index

恒生指数（Hang Seng Index）是香港股市的主要股票市场指数，由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司，反映了香港股市的整体表现。

www.hsi.com.hk 收录

LPW

Labeled Pedestrian in the Wild (LPW) 是一个行人检测数据集，其中包含三个不同场景中的 2,731 名行人，每个带注释的身份由 2 到 4 个摄像头捕获。 LPW 具有 7,694 个轨迹的显着规模，包含超过 590,000 张图像以及轨迹的清洁度。它在三个方面区别于现有数据集：大规模清洁、自动检测边界框以及更拥挤的场景和更大的年龄跨度。该数据集提供了更现实和更具挑战性的基准，有助于进一步探索更强大的算法。

OpenDataLab 收录