电子商务中的常识知识显著性评估基准数据集 (BSEE)

Name: 电子商务中的常识知识显著性评估基准数据集 (BSEE)
Creator: 阿里巴巴集团 & 浙江大学 & AZFT 联合实验室
Published: 2022-10-22 18:22:31
License: 暂无描述

arXiv2022-10-22 更新2024-07-30 收录

下载链接：

https://github.com/OpenBGBenchmark/OpenBG-CSK

下载链接

链接失效反馈

官方服务：

资源简介：

电子商务中的常识知识显著性评估基准数据集 (BSEE) 是由阿里巴巴集团与浙江大学联合开发的，旨在评估电子商务领域中常识知识的显著性。该数据集包含超过20,000条实例，涉及10,783个实体和3种关系，主要用于训练和评估模型在识别常识知识显著性方面的能力。数据集的创建过程包括知识获取和标注，通过邀请标注者手动标注常识断言的显著性，确保数据的质量和准确性。BSEE数据集的应用领域主要集中在电子商务的产品搜索和推荐系统中，通过显著性评估帮助AI代理更明确地理解用户行为，从而提升搜索和推荐的准确性和效率。

The Common Sense Knowledge Salience Evaluation Benchmark Dataset (BSEE) for e-commerce was jointly developed by Alibaba Group and Zhejiang University, aiming to evaluate the salience of common sense knowledge in the e-commerce domain. This dataset contains over 20,000 instances, involving 10,783 entities and 3 types of relationships, and is primarily used for training and evaluating models' capability to recognize the salience of common sense knowledge. The creation process of the BSEE dataset includes knowledge acquisition and annotation, where annotators are invited to manually annotate the salience of common sense assertions to ensure the quality and accuracy of the dataset. The application scenarios of the BSEE dataset mainly focus on e-commerce product search and recommendation systems, where salience evaluation helps AI Agents more clearly understand user behaviors, thereby improving the accuracy and efficiency of search and recommendation systems.

提供机构：

阿里巴巴集团 & 浙江大学 & AZFT 联合实验室

创建时间：

2022-05-22

原始信息汇总

OpenBG-CSK 数据集概述

数据集使用

实验复现

运行以下命令以复现实验： shell python run.py

实验结果包括 F1 分数、准确率和详细结果。

模型训练

运行以下 shell 文件进行模型训练： shell bash run.sh

具体内容如下： shell DATA_DIR="data" MODEL_DIR="bert-base-chinese" OUTPUT_DIR="output/save_dict/" PREDICT_DIR="data/" MAX_LENGTH=128 MODEL_TYPE="PMI"

python run.py --data_dir=${DATA_DIR} --model_dir=${MODEL_DIR} --model=${MODEL_TYPE} --output_dir=${MODEL_TYPE} --do_train=True --max_length=${MAX_LENGTH} --batch_size=16 --learning_rate=1e-5 --epochs=10 --seed=2021

推理与结果生成

运行以下 shell 文件进行推理和结果生成： shell bash run.sh predict

具体内容如下： shell DATA_DIR="data" MODEL_DIR="bert-base-chinese" OUTPUT_DIR="output/save_dict/" PREDICT_DIR="data/" MAX_LENGTH=128 MODEL_TYPE="PMI"

python run.py --data_dir=${DATA_DIR} --model_dir=${MODEL_DIR} --output_dir=${OUTPUT_DIR} --model=${MODEL_TYPE} --max_length=${MAX_LENGTH} --batch_size=16 --learning_rate=1e-5 --epochs=10 --seed=2021

数据集详细信息

数据集样例存储在 data 目录中，包括 train_triple.jsonl 和 dev_triple.jsonl。

数据格式

train_triple.jsonl 数据格式： json {"triple_id" : "0579","subject":"瓶装水","object":"跑步","predicate":"品类_适用_场景","salience": 0}
dev_triple.jsonl 数据格式： json {"triple_id":"0579","subject":"瓶装水","object":"跑步","predicate":"适用"}

基准测试

在实验数据集上评估了多个模型，使用 KG-BERT 作为基础模型，报告了任务的基线结果。

模型性能

模型	F1	准确率
BERT-base	55.2	55.8
RoBERTa-wwm-ext-base	56.9	57.2
PMI-tuning	60.7	61.1

模型输入

KG-BERT 将 h, r, t 作为双向编码器的输入，计算三元组的评分函数。具体输入格式为：[CLS] h [SEP] r [SEP] t [SEP]。

超参数

参数	值
weight_decay	0.01
learning_rate	1e-5

搜集汇总

数据集介绍

构建方式

在电子商务领域，常识知识的显著性评估对产品搜索与推荐至关重要。BSEE数据集的构建始于从购物指南等非结构化文本中提取隐含的常识三元组，通过关系抽取模型识别主体与客体之间的语义关联。随后，采用严格的人工标注流程，邀请经过资格测试的标注者对每个三元组的必要性、充分性及显著性进行多维度评估，并引入对抗性示例以消除词汇线索的干扰，确保数据质量与泛化能力。最终，数据集通过随机划分与概念划分两种策略进行组织，以适应不同研究场景的需求。

特点

BSEE数据集聚焦于电子商务场景下的常识知识显著性评估，其核心特点在于将显著性分解为必要性与充分性两个可量化的维度，并通过人工标注提供细粒度的三元组评估。数据集中包含超过20,000个中文三元组，涵盖“需要”、“互补”及“能够”等电商相关关系，同时通过概念划分策略确保训练集与测试集在实体概念上互斥，从而模拟真实场景中的零样本泛化挑战。此外，数据集提供了简化版与完整版两种标注形式，既支持传统的知识图谱补全任务，也为多维度显著性建模提供了丰富信号。

使用方法

BSEE数据集主要用于训练与评估常识知识显著性分类模型。研究者可基于简化版标注数据，将三元组编码为文本序列，利用预训练语言模型进行端到端的显著性二分类任务；或基于完整版标注，联合优化必要性、充分性与显著性三个目标，以提升模型对显著性内涵的理解。在评估时，建议采用概念划分的测试集以检验模型对未见概念的泛化能力，并使用F1值、准确率及AUC等指标进行性能度量。数据集的对抗性示例也有助于验证模型是否依赖虚假的词汇相关性，促进鲁棒性方法的发展。

背景与挑战

背景概述

在电子商务领域，常识知识的显著性对于产品搜索与推荐等广泛应用具有关键价值。阿里巴巴集团与浙江大学联合实验室于2022年共同构建了电子商务常识知识显著性评估基准数据集（BSEE），旨在解决现有常识知识库仅依赖置信度排序、缺乏人类视角显著性标注的问题。该数据集聚焦于三元组常识知识的显著性评估任务，通过引入必要性与充分性双维度标注框架，为机器学习模型提供了监督学习的基础。BSEE的发布推动了常识推理研究从合理性判断向显著性衡量的范式转变，为电子商务场景下的智能服务优化奠定了数据基础。

当前挑战

BSEE数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上，常识知识显著性评估需区分人类认知中的典型关联与一般关联，例如“跑步需要跑鞋”相较于“跑步需要鞋”更具显著性，这要求模型超越表面合理性，深入理解语义偏好与场景语境。在构建过程中，显著性标注具有高度主观性，研究团队通过必要性与充分性分解降低标注歧义，但仍需应对标注者生活方式与商品认知差异导致的标注不一致问题；此外，为规避模型对词汇线索的虚假关联，数据集中引入了对抗性示例，增加了数据质量控制的复杂度。

常用场景

经典使用场景

在电子商务领域，常识知识显著性评估基准数据集（BSEE）为研究常识知识在商品搜索与推荐中的核心作用提供了关键支撑。该数据集通过标注三元组的显著性，使模型能够学习区分如“跑步需要跑鞋”这类显著知识与“跑步需要鞋子”这类非显著知识，从而优化知识图谱的构建与应用。其经典使用场景集中于训练和评估模型对常识知识显著性的判别能力，推动智能系统更精准地理解用户意图。

衍生相关工作

围绕BSEE数据集，多项经典研究工作得以衍生与发展。例如，研究者提出了PMI-tuning方法，通过点互信息与提示学习相结合，显著提升了模型在显著性评估任务上的表现。同时，该数据集促进了如KG-BERT、StAR、GenKGC等文本编码模型在跨概念分割场景下的适应性优化。这些工作不仅深化了对常识知识显著性的理解，也为后续多语言、大规模知识库的构建提供了重要借鉴。

数据集最近研究