PhillyMac/Performance_Management_Difficult_Conversations_Practical

Name: PhillyMac/Performance_Management_Difficult_Conversations_Practical
Creator: PhillyMac
Published: 2026-04-10 15:27:42
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/PhillyMac/Performance_Management_Difficult_Conversations_Practical

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc0-1.0 task_categories: - text-generation - feature-extraction language: - en tags: - corpus - leadership - historical - deku-corpus-builder size_categories: - 1K<n<10K --- # Performance Management Difficult Conversations — Practical This corpus was automatically generated by the **Deku Corpus Builder** for use in RAG-based AI applications. ## Dataset Description - **Subject**: Performance Management Difficult Conversations - **Subject Type**: topic - **Total Items**: 224 - **Items Requiring Attribution**: 0 - **Has Embeddings**: Yes (all-MiniLM-L6-v2) - **Created**: 2026-04-10 ## Dataset Structure Each record contains: - `text`: The content text - `source_url`: Original source URL - `source_title`: Title of the source document - `source_domain`: Domain of the source - `license_type`: License classification (e.g. `public_domain`, `cc_by`, `cc_by_sa`) - `attribution_required`: Boolean — True for CC BY / CC BY-SA and other attribution-required licenses - `attribution_text`: Formatted Creative Commons attribution string (empty if not required) - `license_url`: URL to the CC license deed (empty if not required) - `relevance_score`: Relevance to the subject (0-1) - `quality_score`: Content quality score (0-1) - `topics`: JSON array of detected topics - `character_count`: Length of the text - `subject_name`: The subject this content relates to - `subject_type`: "personality" or "topic" - `extraction_date`: When the content was extracted - `embedding`: Pre-computed 384-dimensional embedding vector ## Attribution 0 of 224 chunks in this corpus require attribution under their source license. When building lessons from these chunks, the `attribution_text` field must be surfaced in the lesson output per the Legend Leadership Attribution Tracking Spec. ## Usage ```python from datasets import load_dataset dataset = load_dataset("PhillyMac/Performance_Management_Difficult_Conversations_Practical") # Access attribution-required chunks for item in dataset["train"]: if item["attribution_required"]: print(item["attribution_text"]) ``` ## Integration with RAG This dataset is designed to be integrated with existing embedded corpuses. The embeddings use the `sentence-transformers/all-MiniLM-L6-v2` model, compatible with FAISS indexing. ## License Content is sourced from public domain and Creative Commons licensed materials. See individual `license_type` fields for per-chunk licensing details. ## Generated By [Deku Corpus Builder](https://github.com/PhillyMac/deku-corpus-builder) - An automated corpus building system for AI applications.

许可证：CC0-1.0 任务类别： - 文本生成 - 特征提取语言： - 英语标签： - 语料库 - 领导力 - 历史 - Deku Corpus Builder 样本量范围：1K<n<10K # 绩效管理棘手对话——实践篇本语料库由**Deku语料构建器（Deku Corpus Builder）**自动生成，用于基于检索增强生成（Retrieval-Augmented Generation, RAG）的人工智能应用。 ## 数据集说明 - **主题**：绩效管理棘手对话 - **主题类型**：话题 - **总条目数**：224 - **需标注来源条目数**：0 - **是否包含嵌入向量**：是（使用all-MiniLM-L6-v2模型） - **创建日期**：2026-04-10 ## 数据集结构每条记录包含以下字段： - `text`：内容文本 - `source_url`：原始来源URL - `source_title`：源文档标题 - `source_domain`：来源域名 - `license_type`：许可证分类（例如`public_domain`（公有领域）、`cc_by`（CC BY）、`cc_by_sa`（CC BY-SA）） - `attribution_required`：布尔值——对于CC BY、CC BY-SA等需要标注来源的许可证，该值为`True` - `attribution_text`：格式化的知识共享（Creative Commons）来源标注字符串（无需标注时为空） - `license_url`：指向CC许可证契约的URL（无需标注时为空） - `relevance_score`：与主题的相关度评分（0-1） - `quality_score`：内容质量评分（0-1） - `topics`：检测到的主题的JSON数组 - `character_count`：文本字符数 - `subject_name`：该内容关联的主题名称 - `subject_type`：取值为"personality"（人物）或"topic"（话题） - `extraction_date`：内容提取日期 - `embedding`：预计算的384维嵌入向量 ## 来源标注要求本语料库的224个文本块中，有0个需要根据其源许可证标注来源。当从这些文本块构建课程内容时，需按照《Legend Leadership Attribution Tracking Spec（传奇领导力归因跟踪规范）》在课程输出中展示`attribution_text`字段。 ## 使用方法 python from datasets import load_dataset dataset = load_dataset("PhillyMac/Performance_Management_Difficult_Conversations_Practical") # 访问需标注来源的条目 for item in dataset["train"]: if item["attribution_required"]: print(item["attribution_text"]) ## 与RAG的集成本数据集旨在与现有嵌入语料库集成。其嵌入向量使用`sentence-transformers/all-MiniLM-L6-v2`模型生成，兼容FAISS索引。 ## 许可证本数据集内容来源于公有领域及知识共享（Creative Commons）许可协议授权的素材。各文本块的具体许可细节请查看单独的`license_type`字段。 ## 生成方 [Deku语料构建器（Deku Corpus Builder）](https://github.com/PhillyMac/deku-corpus-builder)——一款面向人工智能应用的自动化语料构建系统。

提供机构：

PhillyMac

搜集汇总

数据集介绍

构建方式

该数据集由Deku Corpus Builder自动化构建工具生成，专为基于检索增强生成（RAG）的人工智能应用而设计。数据集聚焦于“绩效管理中的棘手对话”这一主题，共包含224个文本片段。每个片段均经过精细化的元数据标注，涵盖来源URL、标题、域名、许可证类型、归因要求、归因文本、许可证链接、相关度评分（0-1）、质量评分（0-1）、检测主题列表、字符数、主题名称、主题类型及提取日期等字段。所有文本片段均通过all-MiniLM-L6-v2模型预计算了384维的嵌入向量，便于后续的语义检索与相似度计算。数据集内容来源于公共领域和知识共享许可的材料，其中0个片段需要归因，极大简化了复用流程。

特点

该数据集的核心特色在于其高度结构化的元数据体系与即用型嵌入向量，为AI应用开发提供了坚实的基座。224个片段均附有相关度与质量双重评分，使得开发者能够基于需求灵活筛选高质量或高相关性的内容。预计算的嵌入向量采用sentence-transformers/all-MiniLM-L6-v2模型，可直接与FAISS等高效索引工具集成，显著降低语义检索的开发门槛。值得一提的是，所有片段均无需归因，这在知识共享许可限定的素材中极为罕见，赋予了商业应用极大的便利性。此外，数据集的元数据详细记录了来源与许可信息，确保了内容使用的透明性与合规性。

使用方法

开发者可通过HuggingFace Datasets库便捷加载该数据集，使用简单的Python代码（如`load_dataset`）即可获取完整数据。对于需要构建RAG系统的场景，数据集内嵌的向量可直接用于FAISS索引的构建，无需额外计算嵌入，大幅提升系统搭建效率。在应用过程中，若遇到需要归因的片段（尽管本数据集中为零），应严格依据`attribution_text`字段的内容进行归因展示，遵循Legend Leadership归因追踪规范。此外，开发者可依据`relevance_score`和`quality_score`字段进行数据过滤，挑选最契合具体业务需求的内容片段，实现精准的语义匹配与内容生成。

背景与挑战

背景概述

在现代组织管理中，绩效管理对话常因涉及批评、反馈与目标调整而充满挑战，成为领导者必须掌握的关键技能。为此，PhillyMac团队于2026年4月10日利用Deku Corpus Builder自动构建了Performance_Management_Difficult_Conversations_Practical数据集，专注于绩效管理中的困难对话场景。该数据集由224个文本块组成，涵盖了来自公共领域和知识共享许可的语料，并预先使用all-MiniLM-L6-v2模型生成了384维嵌入向量，旨在为基于检索增强生成（RAG）的AI应用提供专门化的知识支撑。其核心研究问题是如何系统化地汇聚关于困难对话的实用知识，以辅助AI系统在领导力培训、绩效辅导等场景中生成更具情境适应性的回应，对提升AI在人力资源管理领域的应用效能具有重要参考价值。

当前挑战

该数据集所面对的领域挑战在于，绩效管理困难对话涉及复杂的人际互动与情感因素，现有AI模型常难以捕捉微妙语境、文化差异和非语言线索，导致生成的建议可能偏离实际管理需求。构建过程中面临的核心挑战包括：如何从多样化的公开素材中精准筛选出与困难对话直接相关的高质量文本，确保内容在主题聚焦的同时具备足够的覆盖面；如何对来源各异的语料进行统一的质量评分与相关性评估，以降低噪声干扰；以及如何处理不同许可协议下的归属要求，确保在RAG应用中合法合规地引用源内容，并设计清晰的归属追踪规范以支持后续的自动化使用流程。

常用场景

经典使用场景

在组织行为学与人力资源管理的交叉领域中，绩效管理始终是领导者面临的核心挑战之一。该数据集聚焦于绩效管理中的棘手对话场景，提供了224条高质量语料片段，每条均包含完整文本、来源归属及预计算嵌入向量。其经典使用场景在于为检索增强生成（RAG）系统构建专业的知识库，使AI能够根据用户提出的绩效沟通难题，精准检索并生成基于真实管理实践的应对建议。通过集成FAISS索引，该数据集可高效支撑实时问答与对话系统，成为管理者进行情景模拟训练与沟通策略学习的宝贵资源。

衍生相关工作

该数据集衍生了一系列开创性工作，包括基于其预计算嵌入向量开发的对话策略分类器、以及融合归因追踪机制的可解释RAG模型。研究者利用该语料构建了绩效谈话情感分析基准，并提出了面向领导力语境的文本生成微调方法。此外，数据集所采用的Deku语料构建框架也被推广至其他管理场景，如冲突解决与变革管理，形成了可复用的自动化语料生成范式，为人机协同管理研究奠定了数据基础。

数据集最近研究