sri_Lankan_classified_ads_dataset_for_ad_matching_and_retrieval

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/Damika-7/sri_Lankan_classified_ads_dataset_for_ad_matching_and_retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是为了支持斯里兰卡分类市场中的广告匹配、语义检索和意图对齐的研究而开发的。它包含了54,489个广告对，包括经过人工验证的真实样本和LLM生成的合成样本。数据集旨在训练和评估需要在低资源子类别上进行泛化的ML模型，尤其是在求购广告代表性不足的情况下特别有价值。每个数据行包括完整的供应和求购广告文本、两种广告类型的标题和描述、主要类别和子类别标签。类别分布包括电子产品、车辆和房产等，共有20个子类别。语言分布上，英语占60.34%，混合僧伽罗语/英语或泰米尔语/英语占34.46%，僧伽罗语占5.20%，泰米尔语占0.01%。数据集是通过人工匹配的广告对，经过双重标注和裁决构建而成，对于罕见子类别，使用Gemini 2.0 Flash (LLM)生成了合成的求购广告。所有广告都是从公开可访问的来源收集的，个人识别信息已被替换为占位符，数据集是完全匿名化的，仅供学术和非商业使用。

创建时间：

2025-05-16

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
语言: 英语 (en)、僧伽罗语 (si)
标签: classifieds, ads, semantic, matching, retreivel, electronics, property, vehicles, marketplace
规模: 10K<n<100K

数据集描述

用途: 支持斯里兰卡分类广告市场的广告匹配、语义检索和意图对齐研究。
样本数量: 54,489 对广告。
样本类型: 包括人工验证的真实样本和LLM生成的合成样本。

用例亮点

适用于训练和评估需要低资源子类别泛化的机器学习模型。
特别适用于需求广告 underrepresented的场景。

数据集结构

每行数据包含:

供应广告和需求广告的完整文本。
两种广告类型的标题和描述。
主类别和子类别标签。

类别分布

电子产品: 37.17%
车辆: 33.25%
房地产: 29.58%
子类别数量: 20个（如汽车、货车、房屋、土地、手机等）。

语言分布

英语: 60.34%
僧伽罗语/英语或泰米尔语/英语混合: 34.46%
僧伽罗语: 5.20%
泰米尔语: 0.01%

构建细节

人工匹配广告对，经过双重标注和裁决。
使用Gemini 2.0 Flash (LLM)通过结构化提示工程为稀有子类别生成合成需求广告。
所有广告均来自公开可访问的来源，已替换个人身份信息（如电话号码）。
数据集完全匿名化，仅用于学术和非商业用途。

搜集汇总

数据集介绍

构建方式

在斯里兰卡分类广告匹配与检索研究领域，该数据集通过多源采集与智能生成相结合的方式构建。研究人员采用双重标注机制，由专业人员对真实广告对进行人工验证匹配，同时运用Gemini 2.0 Flash大语言模型生成稀缺子类别的合成需求广告，通过结构化提示工程确保数据质量。所有原始广告均来自公开渠道，并经过严格的匿名化处理，敏感信息如电话号码均被替换为占位符。

特点

该数据集涵盖54,489组广告对，具有显著的多元语言特征与类别平衡性。内容分布上，电子产品占37.17%，交通工具占33.25%，房地产占29.58%，细分为20个子类别。语言维度呈现英语主导(60.34%)，混合僧伽罗语/英语或泰米尔语/英语占34.46%，纯僧伽罗语5.20%，泰米尔语0.01%的分布格局。其独特价值在于包含真实样本与合成样本的混合，特别针对需求广告稀缺的子类别进行了数据增强。

使用方法

该数据集主要服务于机器学习模型在低资源子类别下的泛化能力研究，特别适用于需求广告代表性不足的场景。使用者可通过广告全文、标题、描述等字段进行语义匹配模型训练，利用主类别和子类别标签实现层次化分析。数据集采用标准结构化格式存储，每行包含供需双方的完整广告文本及元数据，支持端到端的广告匹配与检索任务评估。需注意该数据集仅限学术与非商业用途。

背景与挑战

背景概述

斯里兰卡分类广告数据集旨在支持广告匹配、语义检索和意图对齐的研究，特别是在斯里兰卡分类市场中的供需广告匹配问题。该数据集由54,489对广告组成，涵盖电子产品、车辆和房产三大类别及其20个子类别。数据集中既包含人工验证的真实样本，也包含利用Gemini 2.0 Flash生成的合成样本，以解决低资源子类别中需求广告不足的问题。数据集的多语言特性（英语、僧伽罗语和泰米尔语）进一步增强了其在多语言环境下的适用性。该数据集的构建为研究低资源语言和特定市场环境下的广告匹配提供了重要资源。

当前挑战

该数据集面临的主要挑战包括：1) 在低资源子类别中，需求广告的稀缺性导致模型训练和评估的困难；2) 多语言混合文本（如僧伽罗语/英语或泰米尔语/英语）的语义对齐和匹配问题增加了模型的复杂度；3) 合成样本的生成虽然缓解了数据不足的问题，但其与真实样本的分布差异可能影响模型的泛化性能。此外，数据集的构建过程中需处理隐私信息匿名化，确保数据合规性，同时保持数据的实用性和多样性。

常用场景

经典使用场景

在电子商务和在线市场研究中，sri_Lankan_classified_ads_dataset为广告匹配和语义检索任务提供了丰富的实验数据。该数据集特别适用于研究低资源子类别下的广告匹配问题，尤其是在斯里兰卡多语言环境中，能够有效支持模型在电子产品、车辆和房地产等领域的泛化能力。

衍生相关工作

基于该数据集，研究者已开展多项经典工作，包括低资源语言环境下的广告匹配算法优化、多语言语义检索模型的性能评估，以及合成数据在广告匹配任务中的应用研究。这些工作进一步推动了广告匹配和语义检索领域的技术发展。

数据集最近研究