DFKI-SLT/dfki-product-corpus

Name: DFKI-SLT/dfki-product-corpus
Creator: DFKI-SLT
Published: 2024-05-13 07:31:08
License: 暂无描述

Hugging Face2024-05-13 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/dfki-product-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

DFKI产品语料库是一个包含174个英文网页和社交媒体帖子的数据集，标注了产品和公司命名实体以及公司提供产品的关系。该数据集仅包含原始全文中至少包含一个组织和一个产品实体的句子。对于每个句子中的组织-产品组合，数据集包含一个实例，标记为“CompanyProvidesProduct”或“no_relation”。因此，该数据集更适合关系提取任务，而不是命名实体识别。数据集由DFKI-SLT团队创建，主要用于构建知识图谱。数据集的结构包括训练集、验证集和测试集，每个实例包含id、tokens、label、entities、grammar和type字段。数据集的注释由DFKI SLT的研究人员和学生助手完成，不包含个人或敏感信息。

提供机构：

DFKI-SLT

原始信息汇总

数据集概述

数据集名称： DFKI Product Corpus

数据集描述： DFKI Product Corpus是一个包含174个英文网页和社交媒体帖子的数据集，这些内容被标注了产品和公司命名实体，以及关系“CompanyProvidesProduct”。该数据集主要用于关系抽取，类似于TACRED数据集，并不适用于命名实体识别。

数据集特点：

语言： 英语（en-us, en-gb）
许可证： CC-BY-4.0
数据集大小： 1K<n<10K
数据集结构： 数据集中的每个实例包含句子ID、tokens列表、关系标签（"CompanyProvidesProduct"或"no_relation"）、实体的起始和结束偏移量、以及固定的语法和类型列表。

数据集使用： 该数据集适用于二元关系分类。

数据集结构：

训练集： 2437条
验证集： 330条
测试集： 510条

数据集创建：

创建目的： 作为PLASS项目的一部分，旨在为公司-产品关系提供训练和评估数据，用于构建知识图谱。
源数据： 主要来源于新闻、产品页面、特殊兴趣网页等网络文本。
标注内容： 包含命名实体（ORGANIZATION, PRODUCT）和单一关系类型（CompanyProvidesProduct）的标注。

数据集贡献者：

数据集维护者： DFKI-SLT
数据集贡献者： 经过培训的学生助理和DFKI SLT的研究人员。

数据集引用信息：

BibTeX引用：

@InProceedings{SCHÖN18.88, author = {Saskia Schön and Veselina Mironova and Aleksandra Gabryszak and Leonhard Hennig}, title = "{A Corpus Study and Annotation Schema for Named Entity Recognition and Relation Extraction of Business Products}", booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year = {2018}, month = {May 7-12, 2018}, address = {Miyazaki, Japan}, publisher = {European Language Resources Association (ELRA)}, isbn = {979-10-95546-00-9}, language = {english} }
APA引用：

Schön, S., Mironova, V., Gabryszak, A., & Hennig, L. (2018). A Corpus Study and Annotation Schema for Named Entity Recognition and Relation Extraction of Business Products. ArXiv, abs/2004.03287.

5,000+

优质数据集

54 个

任务类型

进入经典数据集