five

DFKI Product Corpus

收藏
github2024-05-08 更新2024-05-31 收录
下载链接:
https://github.com/DFKI-NLP/product-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含174份英文网页和社交媒体帖子,标注了产品和公司命名实体以及公司提供产品的关系。其目的是使从非结构化文本中提取非标准B2B产品和关系更加容易和可靠。数据集还标注了公司和产品的共指链。

This dataset comprises 174 English web pages and social media posts, annotated with named entities for products and companies, as well as the relationships between the products offered by these companies. The objective is to facilitate and enhance the reliability of extracting non-standard B2B products and relationships from unstructured text. Additionally, the dataset includes annotations for coreference chains of companies and products.
创建时间:
2019-11-25
原始信息汇总

数据集概述

数据集名称

DFKI Product Corpus

数据集内容

包含174个英文网页和社交媒体帖子的数据集,主要用于提取非标准B2B产品和关系。数据集标注了产品、公司命名实体以及“CompanyProvidesProduct”关系,并包含公司和产品的共指链标注。

数据集版本

  • 版本1:初始版本,具体日期为2018年5月9日。
  • 版本2:更新于2019年6月18日,新增21个文档,总文档数达到174个。此外,新增了训练/开发/测试分割,并对标注规则进行了调整,包括在特定上下文中即使未明确提及“CompanyProvidesProduct”关系的产品短语也被标记为产品,以及在市场描述中明确提及的物理产品也被标记为产品。

数据集格式

数据集提供AVRO和JSON两种格式,遵循训练/测试分割。

数据集使用

数据集采用CC-BY 4.0许可。使用时需引用相关论文:

  • A Corpus Study and Annotation Schema for Named Entity Recognition and Relation Extraction of Business Products. Saskia Schön, Veselina Mironova, Aleksandra Gabryszak and Leonhard Hennig. Proceedings of LREC, 2018.

数据集结构

每个文档包含原始文本及所有标注,结构遵循AVRO schema。文档中的概念提及(ConceptMentions)对应命名实体和其他类型概念,关系提及(RelationMentions)则用于描述文档中的关系。

标注指南

搜集汇总
数据集介绍
main_image_url
构建方式
DFKI Product Corpus的构建基于对174个英文网页和社交媒体帖子的深入标注,涵盖了产品、公司命名实体以及公司提供产品的关系。该数据集的构建旨在简化并提高从非结构化文本中提取非标准B2B产品和关系的准确性。此外,数据集还包含了公司和产品的共指链标注,以增强文本理解的连贯性。版本2在版本1的基础上增加了21个文档,并改进了标注规则,使得在特定上下文中使用的短语,即使未明确提及公司提供产品的关系,也被标记为产品。
特点
DFKI Product Corpus的一个显著特点是其对非标准B2B产品和关系的详细标注,这使得该数据集在处理复杂商业文本时具有较高的实用价值。此外,数据集提供了两种格式(AVRO和JSON),并采用了训练/开发/测试的分割方式,便于模型评估和开发。数据集的标注规则经过精心设计,能够捕捉到在特定市场描述中明确识别的物理产品,如在'[IV equipment]市场'中提到的'[fusion pumps]'。
使用方法
DFKI Product Corpus的使用方法相对直接,用户可以通过提供的AVRO或JSON格式访问数据集。数据集包含原始文本及其所有标注,用户可以使用提供的Java工具或自定义代码来读取AVRO格式的数据。每个文档包含概念提及(ConceptMentions)和关系提及(RelationMentions),用户可以遍历这些提及以提取命名实体和关系信息。此外,数据集还提供了详细的标注指南,帮助用户理解和应用这些标注。
背景与挑战
背景概述
DFKI Product Corpus是由德国人工智能研究中心(DFKI)创建的一个专门用于命名实体识别和关系抽取的数据集,主要针对非标准B2B产品和公司关系的提取。该数据集包含了174个英语网页和社交媒体帖子的标注,涵盖了产品、公司命名实体以及公司提供产品的关系。数据集的创建旨在提高从非结构化文本中提取这些信息的准确性和可靠性。该数据集的开发始于2018年,由Saskia Schön、Veselina Mironova、Aleksandra Gabryszak和Leonhard Hennig等研究人员主导,其研究成果在2018年的LREC会议上发表,对自然语言处理领域,尤其是命名实体识别和关系抽取的研究具有重要影响。
当前挑战
DFKI Product Corpus在构建过程中面临了多个挑战。首先,标注非标准B2B产品和公司关系的过程复杂,需要高度专业化的领域知识。其次,数据集的标注涉及多种上下文,如市场描述和特定产品提及,这增加了标注的难度。此外,数据集的版本更新也带来了新的挑战,如在第二版中增加了21个文档,并对标注规则进行了调整,以更好地捕捉产品提及的多样性。最后,数据集的标注还涉及共指链的识别,这要求标注者具备较高的语言理解能力。这些挑战共同构成了该数据集在实际应用中的复杂性和技术难度。
常用场景
经典使用场景
DFKI Product Corpus 数据集的经典使用场景主要集中在非标准B2B产品和公司关系的命名实体识别与关系抽取任务中。该数据集通过标注174个英文网页和社交媒体帖子中的产品、公司实体以及公司提供产品的关系,为研究者提供了一个可靠的基准,用于开发和评估自然语言处理模型在复杂文本中识别和关联这些实体的能力。
实际应用
DFKI Product Corpus 数据集在实际应用中具有广泛的前景,特别是在企业对企业(B2B)市场的信息提取和分析中。例如,企业可以利用该数据集训练的模型来自动化产品目录的更新、市场趋势分析以及客户需求的预测。此外,该数据集还可用于法律和合规性检查,确保公司提供的产品符合行业标准和法规。
衍生相关工作
基于DFKI Product Corpus 数据集,研究者们开发了多种命名实体识别和关系抽取模型,这些模型在处理复杂商业文本时表现出色。例如,一些研究工作利用该数据集进行跨领域迁移学习,提升了模型在不同领域文本中的泛化能力。此外,该数据集还激发了关于如何更有效地标注和处理非标准实体的研究,推动了自然语言处理技术在商业领域的应用和发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作