DFKI-SLT/DWIE|信息提取数据集|实体识别数据集
收藏数据集概述
数据集基本信息
- 名称: DWIE (Deutsche Welle corpus for Information Extraction)
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语
- 大小: 10M<n<100M
- 源数据: 原始数据
- 任务类别: 特征提取, 文本分类
- 任务ID: entity-linking-classification
- 论文代码ID: acronym-identification
- 标签: Named Entity Recognition, Coreference Resolution, Relation Extraction, Entity Linking
数据集结构
数据字段
- id: 文章的唯一标识符。
- content: 文章的文本内容,通过src/dwie_download.py脚本下载。
- tags: 用于区分训练集和测试集的文档。
- mentions: 文章中实体提及的列表,每个提及包含以下键:
begin
: 提及的第一个字符的偏移量(在content字段内)。end
: 提及的最后一个字符的偏移量(在content字段内)。text
: 实体提及的文本表示。concept
: 表示实体提及的实体ID(文章中的多个实体提及可以指代同一个概念)。candidates
: 候选的维基百科链接。scores
: 基于维基百科语料库计算的候选实体链接的先验概率。
- concepts: 聚合每个实体提及的实体列表,每个实体注释包含以下键:
concept
: 文档级实体的唯一ID。text
: 属于实体的最长提及的文本。keyword
: 指示实体是否为关键词。count
: 文档中属于实体的实体提及的数量。link
: 实体链接到维基百科。tags
: 与实体关联的多标签分类标签。
- relations: 实体(概念)之间的文档级关系列表,每个关系注释包含以下键:
s
: 关系中的主体实体ID。p
: 定义关系名称的谓词(例如,"citizen_of", "member_of"等)。o
: 关系中的客体实体ID。
- iptc: 文章的多标签IPTC分类代码。
数据集创建
数据集来源
- 初始数据收集和规范化: 未提供详细信息。
- 源语言生产者: 未提供详细信息。
注释
- 注释过程: 未提供详细信息。
- 注释者: 未提供详细信息。
个人和敏感信息
- 个人和敏感信息处理: 未提供详细信息。
使用数据集的考虑
- 数据集的社会影响: 未提供详细信息。
- 数据集的偏见讨论: 未提供详细信息。
- 其他已知限制: 未提供详细信息。
suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9
该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。
huggingface 收录
Hang Seng Index
恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。
www.hsi.com.hk 收录
LPW
Labeled Pedestrian in the Wild (LPW) 是一个行人检测数据集,其中包含三个不同场景中的 2,731 名行人,每个带注释的身份由 2 到 4 个摄像头捕获。 LPW 具有 7,694 个轨迹的显着规模,包含超过 590,000 张图像以及轨迹的清洁度。它在三个方面区别于现有数据集:大规模清洁、自动检测边界框以及更拥挤的场景和更大的年龄跨度。该数据集提供了更现实和更具挑战性的基准,有助于进一步探索更强大的算法。
OpenDataLab 收录