DFKI-SLT/dfki-product-corpus
收藏数据集概述
数据集名称: DFKI Product Corpus
数据集描述: DFKI Product Corpus是一个包含174个英文网页和社交媒体帖子的数据集,这些内容被标注了产品和公司命名实体,以及关系“CompanyProvidesProduct”。该数据集主要用于关系抽取,类似于TACRED数据集,并不适用于命名实体识别。
数据集特点:
- 语言: 英语(en-us, en-gb)
- 许可证: CC-BY-4.0
- 数据集大小: 1K<n<10K
- 数据集结构: 数据集中的每个实例包含句子ID、tokens列表、关系标签("CompanyProvidesProduct"或"no_relation")、实体的起始和结束偏移量、以及固定的语法和类型列表。
数据集使用: 该数据集适用于二元关系分类。
数据集结构:
- 训练集: 2437条
- 验证集: 330条
- 测试集: 510条
数据集创建:
- 创建目的: 作为PLASS项目的一部分,旨在为公司-产品关系提供训练和评估数据,用于构建知识图谱。
- 源数据: 主要来源于新闻、产品页面、特殊兴趣网页等网络文本。
- 标注内容: 包含命名实体(ORGANIZATION, PRODUCT)和单一关系类型(CompanyProvidesProduct)的标注。
数据集贡献者:
- 数据集维护者: DFKI-SLT
- 数据集贡献者: 经过培训的学生助理和DFKI SLT的研究人员。
数据集引用信息:
-
BibTeX引用:
@InProceedings{SCHÖN18.88, author = {Saskia Schön and Veselina Mironova and Aleksandra Gabryszak and Leonhard Hennig}, title = "{A Corpus Study and Annotation Schema for Named Entity Recognition and Relation Extraction of Business Products}", booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year = {2018}, month = {May 7-12, 2018}, address = {Miyazaki, Japan}, publisher = {European Language Resources Association (ELRA)}, isbn = {979-10-95546-00-9}, language = {english} }
-
APA引用:
Schön, S., Mironova, V., Gabryszak, A., & Hennig, L. (2018). A Corpus Study and Annotation Schema for Named Entity Recognition and Relation Extraction of Business Products. ArXiv, abs/2004.03287.



