five

IsmaelMousa/khamsat

收藏
Hugging Face2026-04-03 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/IsmaelMousa/khamsat
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-classification - feature-extraction language: - ar tags: - original - official - real - price - freelance - '2024' pretty_name: khamsat.com size_categories: - 1K<n<10K --- <div align="center"> <a href="https://khamsat.com" target="_blank"> <img src="https://blog.khamsat.com/wp-content/uploads/2019/02/Khamsat-Logo.png" height="120" alt="Khamsat" title="Khamsat"/> </a> <br/> <br/> ![License](https://img.shields.io/badge/license-Apache%202.0-yellow) ![Language](https://img.shields.io/badge/language-Arabic-yellow) ![Entries](https://img.shields.io/badge/entries-7%2C818-yellow) ![Features](https://img.shields.io/badge/features-29-yellow) </div> --- # Khamsat A structured Arabic-language dataset collected from [khamsat.com](https://khamsat.com), the largest Arabic freelance microservice marketplace. > This dataset is an independent research, not affiliated with khamsat. All content rights reserved to [hsoub.com](https://hsoub.com). --- ## Abstract Pricing in freelance marketplaces is a persistent challenge for both sellers seeking to maximize earnings and buyers seeking fair value. This dataset was constructed to support data-driven research into pricing dynamics on the Khamsat platform. It encompasses structured metadata, free-text service descriptions, keyword tags, and multi-dimensional buyer reviews. --- ## Profile <table style="width: 100%; table-layout: fixed; border-spacing: 4px;"> <tr> <td></td> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="category_distribution.png" width="100%"/></td> <td></td> </tr> <tr> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="owner_level_and_price.png" width="100%"/></td> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="duration_distribution.png" width="100%"/></td> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="owner_completion_rate_top_10.png" width="100%"/></td> </tr> </table> --- ## Features The dataset contains 29 fields grouped into four scopes: `category`, `offer`, `owner`, `review` <details> <summary>Click for more details</summary> | Field | Type | Description | |---|---|---| | `category_name` | string | Top-level category | | `category_url` | string | Category page URL | | `service_name` | string | Sub-category | | `service_url` | string | Sub-category URL | | `offer_name` | string | Service title | | `offer_url` | string | Page URL | | `offer_stars` | float | Average rating | | `offer_raters` | int | Number of raters | | `offer_buyers` | int | Completed purchases | | `offer_pending` | int | Active orders | | `offer_price` | string | Price in USD | | `offer_duration` | string | Delivery time | | `offer_response_time` | string | Seller response time | | `offer_available_additions` | string | Add-on options count | | `offer_additions_price` | float | Add-on price | | `offer_description` | string | Full service description | | `offer_keywords` | list[string] | Associated tags | | `offer_total_reviews` | int | Total buyer reviews | | `offer_reviews` | list[dict] | Structured reviews | | `owner_name` | string | Seller display name | | `owner_url` | string | Seller profile URL | | `owner_verified` | bool | Identity verified | | `owner_level` | string | Platform tier | | `owner_stars` | float | Overall rating | | `owner_raters` | int | Number of raters | | `owner_completion_rate` | string | Order completion rate | | `owner_services` | int | Total services listed | | `owner_customers` | int | Unique customers served | | `owner_response_time` | string | Average response time | </details> **Reviews** Each entry in `offer_reviews` contains the following fields. <details> <summary>Click for more details</summary> | Field | Type | Description | |---|---|---| | `reviewer` | string | Buyer name | | `rating_service` | float | Service quality / 5 | | `rating_communication` | float | Communication / 5| | `rating_delivery` | float | On-time delivery / 5 | | `date` | string | Review date | | `comment` | string | Buyer comment | </details> --- ## Collection Data was collected in two phases using Python-based web scraping tools. The first phase used Selenium with Chrome WebDriver to navigate the Khamsat platform systematically across all service categories. Offer-level metadata and seller profile attributes were extracted for each listing, yielding 7,818 unique entries across 11 categories and 26 structured fields with no duplicates. The second phase used Requests and BeautifulSoup to retrieve the textual content of each offer page individually. Three additional fields were extracted per offer: the free-text service description, keyword tags, and the full set of buyer reviews including per-dimension ratings. Requests were rate-limited with randomized delays between 1 and 2.5 seconds per thread across five concurrent workers to avoid overloading the platform. --- ## Statistics | Property | Value | |---|---| | Total offers | 7,818 | | Service categories | 11 | | Structured fields | 29 | | Placeholder rate | 15.41% | | Price range | $5 to $50 | | Dominant price | $5 (54.8% of offers) | | Dominant category | Programming and Development (19.3%) | | Dominant delivery time | One day (49.6% of offers) | --- ## Usage ```python from datasets import load_dataset khamsat = load_dataset("IsmaelMousa/khamsat", split="train") print(khamsat["offer_description"][0]) print(khamsat["offer_reviews"][0]) ``` ``` اهلا ومرحبا سأصمم لكم فيديو احترافي رائع ومميز سواءا لصفحتك على الفيسبوك او لموقعك الإلكتروني او لقناتك على اليوتيوب او لحملة اعلانية لشركاتك او للترويج لنشاطك التجاري أو بكل بساطة ألبوم صور على شكل فيديو يوثق ذكرياتك اوعيد ميلاد او زفاف او حفلة تخرج...إلخ. سعر الخدمة يتضمن مونتاج 60 ثانية مونتاج جيد مع انتقالات جيدة ولا يشمل الاعلانات .اما ادا كنت تريد امكانيات عالية وفاخرة على مستوى الصوت والصورة فيرجى الاطلاع على التطويرات. *العمل لا يسلم بصوره مفتوحة المصدر *جودة الفيديو full hd كن على يقين انك لن ترحل إلا وانت راضي تماما عن الخدمة . [{'reviewer': 'بشير عمر ب.', 'rating_service': 5.0, 'rating_communication': 5.0, 'rating_delivery': 5.0, 'date': 'منذ 5 أيام و12 ساعة', 'comment': 'خمس نجوم، إنه مونتاج احترافي جداً، وأنصح الجميع بالتعامل معه'}, {'reviewer': 'وسيم ا.', 'rating_service': 5.0, 'rating_communication': 5.0, 'rating_delivery': 5.0, 'date': 'منذ 11 يوم و4 ساعات', 'comment': 'تجربة أكثر من رائعة! أستاذ يونس فنان ومبدع حقيقي وليس مجرد منفذ. استلم مشروع فيديو إعلاني لمنتج عالي القيمة (High-Ticket) بستايل سينمائي فخم (Dark Mode و 3D)، والنتيجة كانت احترافية وفوق المتوقع بكثير.\n\nيتميز بمهارة عالية في تحريك النصوص (Typography) وتعديل الألوان بدقة. شخص راقي جداً في التواصل، صبور، ومتجاوب مع الملاحظات والتعديلات برحابة صدر. إذا كنت تبحث عن جودة (VIP) ومستوى إخراج فاخر لمشروعك، يونس هو الخيار الأمثل. كل الشكر لك على هذا الإبداع، وأكيد رح يكون بينا تعاون مستمر بإذن الله.'}] ``` --- ## Citation If you use this dataset or reference the companion study, please cite the following. ```bibtex @misc{mousa2024khamsat, author = {Ismael Mousa}, title = {Data-Driven Optimization of Pricing Strategies on Microservice Platforms: Insights from Khamsat}, year = {2024}, note = {https://github.com/IsmaelMousa/khamsat-predictor} } ``` --- ## License This dataset is released under the [Apache 2.0 License](https://www.apache.org/licenses/LICENSE-2.0). All original content scraped from khamsat.com remains the intellectual property of Hsoub and its contributors.

--- 许可证:Apache 2.0 任务类别: - 文本分类(text-classification) - 特征提取(feature-extraction) 语言: - 阿拉伯语(Arabic) 标签: - 原始 - 官方 - 真实 - 价格 - 自由职业 - 2024年 展示名称:khamsat.com 数据规模类别:1000 < 样本数量 < 10000 --- <div align="center"> <a href="https://khamsat.com" target="_blank"> <img src="https://blog.khamsat.com/wp-content/uploads/2019/02/Khamsat-Logo.png" height="120" alt="Khamsat标志" title="Khamsat"/> </a> <br/> <br/> ![许可证](https://img.shields.io/badge/license-Apache%202.0-yellow) ![语言](https://img.shields.io/badge/language-Arabic-yellow) ![条目数](https://img.shields.io/badge/entries-7%2C818-yellow) ![特征数](https://img.shields.io/badge/features-29-yellow) </div> # Khamsat数据集 本结构化阿拉伯语数据集采集自阿拉伯地区规模最大的自由职业微服务市场[khamsat.com](https://khamsat.com)。 > 本数据集为独立研究项目,与khamsat平台无任何关联。所有原始内容的版权归[hsoub.com](https://hsoub.com)所有。 --- ## 摘要 自由职业市场的定价始终是卖家追求收益最大化与买家寻求合理价值共同面临的长期难题。本数据集旨在支撑针对Khamsat平台定价动态的数据驱动型研究,涵盖结构化元数据、自由文本服务描述、关键词标签及多维度买家评价。 --- ## 数据集概览 <table style="width: 100%; table-layout: fixed; border-spacing: 4px;"> <tr> <td></td> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="category_distribution.png" width="100%" alt="分类分布图表"/></td> <td></td> </tr> <tr> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="owner_level_and_price.png" width="100%" alt="卖家等级与价格分布图表"/></td> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="duration_distribution.png" width="100%" alt="交付时长分布图表"/></td> <td style="width: 33%; height: 100%; overflow: hidden; vertical-align: top;"><img src="owner_completion_rate_top_10.png" width="100%" alt="卖家订单完成率TOP10图表"/></td> </tr> </table> --- ## 特征字段 本数据集包含29个字段,划分为四大范畴:`分类(category)`、`服务报价(offer)`、`卖家(owner)`、`评价(review)`。 <details> <summary>点击展开查看详情</summary> | 字段名 | 数据类型 | 描述 | |---|---|---| | `category_name` | 字符串(string) | 一级分类名称 | | `category_url` | 字符串(string) | 分类页面URL | | `service_name` | 字符串(string) | 子分类名称 | | `service_url` | 字符串(string) | 子分类页面URL | | `offer_name` | 字符串(string) | 服务标题 | | `offer_url` | 字符串(string) | 服务详情页URL | | `offer_stars` | 浮点数(float) | 平均评分 | | `offer_raters` | 整数(int) | 评分用户数 | | `offer_buyers` | 整数(int) | 已完成采购订单数 | | `offer_pending` | 整数(int) | 活跃订单数 | | `offer_price` | 字符串(string) | 以美元计价的服务价格 | | `offer_duration` | 字符串(string) | 服务交付时长 | | `offer_response_time` | 字符串(string) | 卖家平均响应时长 | | `offer_available_additions` | 字符串(string) | 可选附加服务数量 | | `offer_additions_price` | 浮点数(float) | 附加服务单价 | | `offer_description` | 字符串(string) | 完整服务描述文本 | | `offer_keywords` | 字符串列表(list[string]) | 关联关键词标签 | | `offer_total_reviews` | 整数(int) | 买家评价总条数 | | `offer_reviews` | 字典列表(list[dict]) | 结构化买家评价 | | `owner_name` | 字符串(string) | 卖家展示名称 | | `owner_url` | 字符串(string) | 卖家个人主页URL | | `owner_verified` | 布尔值(bool) | 卖家身份是否验证 | | `owner_level` | 字符串(string) | 卖家平台等级 | | `owner_stars` | 浮点数(float) | 卖家综合评分 | | `owner_raters` | 整数(int) | 为卖家评分的用户数 | | `owner_completion_rate` | 字符串(string) | 卖家订单完成率 | | `owner_services` | 整数(int) | 卖家上架服务总数 | | `owner_customers` | 整数(int) | 卖家服务过的独立客户数 | | `owner_response_time` | 字符串(string) | 卖家平均响应时长 | </details> **评价字段详情** `offer_reviews`中的每条评价包含以下字段: <details> <summary>点击展开查看详情</summary> | 字段名 | 数据类型 | 描述 | |---|---|---| | `reviewer` | 字符串(string) | 买家用户名 | | `rating_service` | 浮点数(float) | 服务质量评分(满分5分) | | `rating_communication` | 浮点数(float) | 沟通质量评分(满分5分)| | `rating_delivery` | 浮点数(float) | 按时交付评分(满分5分) | | `date` | 字符串(string) | 评价发布日期 | | `comment` | 字符串(string) | 买家评价内容 | </details> --- ## 数据采集流程 本数据集通过两个阶段采用基于Python的网络爬虫工具采集完成: 第一阶段使用搭载Chrome WebDriver的Selenium工具,系统性遍历Khamsat平台所有服务分类,提取每个服务条目的报价级元数据与卖家档案属性,最终在11个分类下获得7818条唯一条目,涵盖26个结构化字段且无重复数据。 第二阶段使用Requests与BeautifulSoup工具,单独检索每个报价页面的文本内容,为每个报价额外提取3个字段:自由文本形式的服务描述、关键词标签,以及包含各维度评分的完整买家评价集。采集过程设置了速率限制,5个并发工作线程间的随机延迟为1至2.5秒,以避免对平台造成过载。 --- ## 数据集统计信息 | 统计项 | 数值 | |---|---| | 总服务报价条目数 | 7818 | | 服务分类总数 | 11 | | 结构化字段总数 | 29 | | 占位符占比 | 15.41% | | 价格区间 | 5美元至50美元 | | 主流定价 | 5美元(占总报价的54.8%) | | 主流服务分类 | 编程与开发(占比19.3%) | | 主流交付时长 | 1天(占总报价的49.6%) | --- ## 使用示例 python from datasets import load_dataset khamsat = load_dataset("IsmaelMousa/khamsat", split="train") print(khamsat["offer_description"][0]) print(khamsat["offer_reviews"][0]) اهلا ومرحبا سأصمم لكم فيديو احترافي رائع ومميز سواءا لصفحتك على الفيسبوك او لموقعك الإلكتروني او لقناتك على اليوتيوب او لحملة اعلانية لشركاتك او للترويج لنشاطك التجاري أو بكل بساطة ألبوم صور على شكل فيديو يوثق ذكرياتك اوعيد ميلاد او زفاف او حفلة تخرج...إلخ. سعر الخدمة يتضمن مونتاج 60 ثانية مونتاج جيد مع انتقالات جيدة ولا يشمل الاعلانات .اما ادا كنت تريد امكانيات عالية وفاخرة على مستوى الصوت والصورة فيرجى الاطلاع على التطويرات. *العمل لا يسلم بصوره مفتوحة المصدر *جودة الفيديو full hd كن على يقين انك لن ترحل إلا وانت راضي تماما عن الخدمة . [{'reviewer': 'بشير عمر ب.', 'rating_service': 5.0, 'rating_communication': 5.0, 'rating_delivery': 5.0, 'date': 'منذ 5 أيام و12 ساعة', 'comment': 'خمس نجوم، إنه مونتاج احترافي جداً، وأنصح الجميع بالتعامل معه'}, {'reviewer': 'وسيم ا.', 'rating_service': 5.0, 'rating_communication': 5.0, 'rating_delivery': 5.0, 'date': 'منذ 11 يوم و4 ساعات', 'comment': 'تجربة أكثر من رائعة! أستاذ يونس فنان ومبدع حقيقي وليس مجرد منفذ. استلم مشروع فيديو إعلاني لمنتج عالي القيمة (High-Ticket) بستايل سينمائي فخم (Dark Mode و 3D)، والنتيجة كانت احترافية وفوق المتوقع بكثير. يتميز بمهارة عالية في تحريك النصوص (Typography) وتعديل الألوان بدقة. شخص راقي جداً في التواصل، صبور، ومتجاوب مع الملاحظات والتعديلات برحابة صدر. إذا كنت تبحث عن جودة (VIP) ومستوى إخراج فاخر لمشروعك، يونس هو الخيار الأمثل. كل الشكر لك على هذا الإبداع، وأكيد رح يكون بينا تعاون مستمر بإذن الله.'}] --- ## 引用方式 若您使用本数据集或参考相关配套研究,请引用以下文献: bibtex @misc{mousa2024khamsat, author = {Ismael Mousa}, title = {微服务平台定价策略的数据驱动优化:来自Khamsat的洞察(Data-Driven Optimization of Pricing Strategies on Microservice Platforms: Insights from Khamsat)}, year = {2024}, note = {https://github.com/IsmaelMousa/khamsat-predictor} } --- ## 许可证 本数据集采用[Apache 2.0许可证](https://www.apache.org/licenses/LICENSE-2.0)发布。从khamsat.com抓取的所有原始内容仍为Hsoub及其贡献者的知识产权。
提供机构:
IsmaelMousa
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作