london_venues_synthetic
收藏Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/uleeberber/london_venues_synthetic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含10,000条虚构的伦敦场所数据,旨在训练和测试语义搜索和推荐系统。通过生成合成数据,创建了一个受控、高密度的数据集,其中每个场所都有清晰的名称、类型(如咖啡馆、酒吧等)、价格和描述性评论,这些评论映射到特定的用户意图。数据集特别强调了用户意图和语义描述的关联,以支持基于上下文的搜索和推荐。数据生成采用了混合方法,结合结构化属性和AI生成的内容,确保了数据的多样性和质量。数据集包括场所名称、类型、区域、价格、意图和描述等字段。
创建时间:
2026-01-18
原始信息汇总
London Venues Synthetic Dataset 数据集概述
数据集基本信息
- 数据集名称: London Venues Synthetic Dataset
- 发布平台: Hugging Face
- 地址: https://huggingface.co/datasets/uleeberber/london_venues_synthetic
- 许可协议: MIT
- 任务类别: 文本生成
- 语言: 英语
- 数据规模: 10,000 条 < 数据量 < 100,000 条
- 标签: 合成数据、伦敦、旅行
项目与数据概述
本数据集包含 10,000 条合成的、虚构的伦敦场所数据,旨在用于训练和测试语义搜索与推荐系统。项目目标是解决推荐引擎中真实用户评论通常杂乱、稀疏或缺乏特定“意图”或“氛围”上下文的问题。通过生成合成数据,创建了一个受控的、高密度的数据集,其中每个场所都有清晰的名称、类型、价格以及映射到特定用户意图的描述性评论。
文件内容
london_venues_final.parquet: 主数据集文件。London_Venues_Final_Project.ipynb: 用于生成数据并进行探索性数据分析的代码。
数据生成方法
采用混合生成方法以确保高质量和连贯性。
- 结构化属性定义: 使用硬编码列表定义区域、场所类型、价格和用户意图,并通过Python随机化以确保完美的统计分布。
- 名称生成: 根据场所类型生成“具有伦敦风格”的名称。
- 描述生成: 使用 Hugging Face 上的 Qwen/Qwen2.5-0.5B-Instruct 模型,以“伦敦美食评论家”的身份为每个地点生成一句富有创意的评论/描述。
- 安全与完整性检查: 生成过程每500行将数据保存到parquet文件;系统提示明确指示模型充当“伦敦美食评论家”,确保描述性且引人入胜的语调。
数据质量验证(探索性数据分析)
- 场所分布: 数据集在伦敦主要街区(区域)和场所类型上保持平衡分布,确保推荐系统不会偏向单一区域。
- 用户意图: 数据集包含意图列,捕获用户访问原因,覆盖了“约会之夜”、“学习”和“现场音乐”等多种活动。
- 文本质量与连贯性: 通过分析字符长度分布验证了语言生成的自然性。
- 语义连贯性检查: 通过手动检查随机样本,确保描述与场所名称和意图相匹配。
数据集结构
- 总行数: 10,000
- 列:
- Venue Name: 通过自定义逻辑生成的虚构名称。
- Venue Type: 类别。
- Area: 伦敦街区。
- Price: 预算等级。
- Intent: 场所的主要用例。
- Description: AI生成的语义描述,描述场所的氛围和产品。
- 唯一值: 生成了 3967 个独特的场所名称。
意义与应用
本数据集专为语义搜索而构建。生成的语义描述充当“推荐理由”,明确将场所特征与用户意图联系起来,确保搜索引擎基于上下文而不仅仅是关键词进行匹配。
搜集汇总
数据集介绍

构建方式
在构建伦敦场所合成数据集的过程中,采用了混合生成策略以确保数据的高质量与内在一致性。首先,基于伦敦典型区域、场所类型、价格区间及用户意图等结构化属性,通过硬编码列表与随机化处理,生成了基础元数据框架。随后,利用轻量级指令调优模型Qwen2.5-0.5B-Instruct,以“伦敦美食评论家”的角色生成富有创意且贴合上下文的单句描述,有效避免了大规模模型的计算负担。生成过程中实施了完整性检查与分段保存机制,确保了数据在长达四小时的生成窗口内的安全性与一致性。
特点
该数据集的核心特征在于其高度结构化与语义丰富的设计。每一行数据均包含虚构的场所名称、类型、所在区域、价格等级、用户意图及AI生成的描述,其中意图列明确捕捉了用户访问场景,如“约会之夜”或“学习工作”,超越了传统评分数据的局限。数据分布经过精心平衡,覆盖了伦敦多个关键街区与多样场所类型,避免了推荐系统可能出现的区域或类别偏差。此外,通过语义连贯性验证,确保了描述内容与场所名称及用户意图的高度匹配,为语义搜索与推荐任务提供了精准的上下文依据。
使用方法
该数据集主要应用于语义搜索与推荐系统的训练与评估。使用者可直接加载Parquet格式的主数据文件,利用场所描述与用户意图字段构建嵌入向量,实现基于上下文的相似性匹配与个性化推荐。数据集中包含的多样化意图标签与平衡的分布特性,有助于开发能够理解复杂用户需求的推荐模型。同时,附带的探索性分析代码为数据质量验证与进一步的特征工程提供了参考,支持研究者快速开展实验并优化系统性能。
背景与挑战
背景概述
伦敦场所合成数据集(London Venues Synthetic Dataset)由研究人员于近期构建,旨在应对推荐系统中语义理解的核心研究问题。该数据集包含一万条虚构的伦敦场所记录,通过结构化属性与大型语言模型生成技术相结合,模拟了具有明确用户意图的场所描述。其核心在于解决传统推荐数据中用户评论稀疏、意图信息缺失的局限性,为语义搜索与推荐系统的训练与评估提供了高密度、可控的基准数据。该工作体现了合成数据在增强人工智能模型语境感知能力方面的潜力,对旅游信息检索与个性化推荐领域具有方法论上的启示意义。
当前挑战
该数据集致力于解决推荐系统中语义匹配的挑战,即如何超越传统的关键词或评分匹配,实现基于用户深层意图(如“适合学习”或“浪漫约会”)的场所推荐。构建过程中的主要挑战包括:确保合成数据的多样性与真实性,避免生成重复或脱离现实的场所名称与描述;维持不同区域、场所类型及价格区间的平衡分布,以防止推荐模型产生偏差;以及验证大型语言模型生成文本的语义连贯性,确保描述与场所属性、用户意图之间逻辑一致,避免产生无意义或矛盾的文本内容。
常用场景
经典使用场景
在语义搜索与推荐系统领域,伦敦场所合成数据集为模型训练与评估提供了高度结构化的基准环境。该数据集通过精心设计的合成方法,生成了包含虚构场所名称、类型、价格、区域、用户意图及语义描述的多样化条目,模拟了真实推荐场景中用户对场所的特定需求与偏好。经典使用场景聚焦于训练语义检索模型,使其能够依据用户输入的意图描述,如“适合学习的安静咖啡馆”或“浪漫约会的高档餐厅”,精准匹配并推荐相应场所,从而优化搜索结果的上下文相关性。
实际应用
在实际应用层面,伦敦场所合成数据集可直接服务于旅游与本地生活推荐平台的开发。例如,旅行规划应用可集成基于该数据训练的语义搜索引擎,允许用户以自然语言描述需求,如“寻找肖尔迪奇区适合朋友聚会的平价酒吧”,系统便能返回贴合语境的场所建议。此外,该数据集也可用于测试商业推荐系统的鲁棒性与公平性,确保其在不同区域、价格区间及用户意图上的覆盖均衡,从而提升用户体验与平台服务质量。
衍生相关工作
围绕该数据集,已衍生出多项聚焦语义增强推荐系统的经典研究工作。例如,有研究利用其意图与描述的强关联性,开发了基于对比学习的语义嵌入模型,以提升跨模态检索的准确性。另一项工作则结合该数据集与真实用户行为日志,探索了合成数据与真实数据的混合训练策略,有效缓解了数据稀缺问题。这些工作共同推动了语义搜索技术在推荐领域的创新,为后续研究提供了可复现的基准与方法论参考。
以上内容由遇见数据集搜集并总结生成



