five

thebajajra/Ecomniverse-mini

收藏
Hugging Face2025-12-12 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/thebajajra/Ecomniverse-mini
下载链接
链接失效反馈
官方服务:
资源简介:
Ecomniverse-mini是完整Ecom-niverse数据集的5%分层样本。Ecom-niverse是一个通过精炼广泛的网络数据集构建的全面电子商务标记数据集,旨在隔离具有零售或购物上下文的内容。这个经过筛选的语料库用于持续预训练LLM和其他仅编码器模型,以便它们更好地理解产品描述、价格和其他与商业相关的文本。数据集的构建方法包括从FineFineWeb数据集中识别和筛选电子商务相关领域的内容,以及使用Phi-4模型和fastText分类器进行数据过滤。

Ecomniverse-mini is a 5% stratified sample of the complete Ecom-niverse dataset. Ecom-niverse is a comprehensive e-commerce tokens dataset constructed by refining a broad web dataset to isolate content with retail or shopping context. This curated corpus is intended for continual pre-training of LLMs and other Encoder-only models so they better understand product descriptions, prices, and other commerce-related text. The dataset construction methodology involves identifying and filtering e-commerce-related domains from the FineFineWeb dataset and using the Phi-4 model and fastText classifiers for data filtering.
提供机构:
thebajajra
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作