Compass-v2
收藏arXiv2025-04-22 更新2025-04-25 收录
下载链接:
http://arxiv.org/abs/2504.15527v1
下载链接
链接失效反馈官方服务:
资源简介:
Compass-v2数据集是由Shopee LLM Team团队构建的,包含12万亿tokens的高质量、多样化的语料库,特别关注东南亚语言和电子商务领域。数据来源于多样化的语言和文档类型,包括主流语言和东南亚地区语言,以及与电子商务相关的内部Shopee数据和合成数据。该数据集针对低资源语言和电子商务领域进行了定制化处理,保证了数据的质量和多样性,适用于提升模型在多语言和电子商务任务中的性能。
The Compass-v2 dataset was constructed by the Shopee LLM Team. It is a high-quality and diverse corpus containing 12 trillion tokens, with a particular focus on Southeast Asian languages and the e-commerce domain. The dataset sources data from a wide range of languages and document types, including mainstream languages and regional languages of Southeast Asia, as well as internal Shopee e-commerce-related data and synthetic data. It has been customized for low-resource languages and the e-commerce field to ensure data quality and diversity, and is suitable for improving model performance in multilingual and e-commerce tasks.
提供机构:
Shopee LLM Team
创建时间:
2025-04-22
搜集汇总
数据集介绍

构建方式
Compass-v2数据集的构建采用了多阶段、多来源的复合方法。针对东南亚语言和电子商务领域的特殊需求,研究团队首先从Common Crawl、维基百科等公开资源中提取多语言文本,并结合Shopee平台内部电商数据构建基础语料。通过严格的启发式过滤、模型质量评估和选择性重采样等质量控制手段,确保数据的高质量和多样性。特别值得注意的是,团队开发了针对东南亚语言的专用分词器,采用三阶段子分词器融合策略,显著提升了低资源语言的编码效率。
使用方法
Compass-v2数据集支持端到端的模型训练流程,包括三阶段预训练(大规模预训练、高质量退火和长上下文扩展)和两阶段监督微调。研究人员可通过CAP平台提供的API或Web界面访问模型。对于推理加速,推荐采用AWQ-INT4量化技术,在批量推理场景下可实现1.58倍的吞吐量提升。数据集特别适用于构建支持混合推理(快速思考与深度思考)的多语言电商助手,在商品推荐、多语言客服等场景表现优异。使用时可结合任务类型选择通用模板或特定思维链模板以激活不同推理模式。
背景与挑战
背景概述
Compass-v2是由Shopee LLM Team于2025年推出的轻量级专家混合模型(Mixture-of-Experts, MoE),专注于解决东南亚低资源语言在电子商务领域的应用问题。该数据集由Sophia Maria等人构建,旨在填补主流大语言模型在东南亚语言支持上的空白,同时优化电子商务场景下的性能。Compass-v2采用了30B总参数和5B激活参数的架构设计,结合细粒度专家模块和共享专家模块,显著提升了多语言处理和领域适应能力。其创新性地构建了行业领先的东南亚语言数据集和数百亿token规模的电商语料库,并通过混合推理框架统一支持快速思维和深度思维两种推理模式,在保持较低推理成本的同时实现了优异的性能表现。
当前挑战
Compass-v2面临的核心挑战主要体现在两个方面:领域问题方面,需解决东南亚多语言环境下低资源语言的表征难题,包括语言形态复杂性、代码混合现象及跨语言知识迁移等问题;同时要攻克电商领域特有的商品属性理解、多轮对话意图识别等任务。构建过程中,团队遭遇了数据稀缺性挑战,需通过外部数据挖掘与内部平台采集构建高质量语料;在模型架构上需平衡专家模块的通用性与专业性,设计动态负载均衡机制防止路由坍塌;此外,长上下文扩展训练中如何保持短文本生成能力,以及量化部署时内存访问瓶颈的优化,都是关键技术难点。
常用场景
经典使用场景
Compass-v2数据集在自然语言处理领域,特别是针对东南亚多语言和电子商务应用场景中展现了卓越的性能。其经典的用途包括支持多语言理解与生成任务,尤其是在低资源语言如印尼语、马来语、泰语和越南语上的表现尤为突出。该数据集通过精心设计的混合专家(MoE)架构,实现了在保持推理成本较低的同时,显著提升了模型的多语言处理能力和电子商务领域的适应性。
解决学术问题
Compass-v2数据集解决了当前大型语言模型(LLMs)在低资源语言和特定领域(如电子商务)中表现不足的学术问题。通过构建高质量的东南亚语言数据集和电子商务语料库,该数据集显著提升了模型在跨语言知识迁移和商业场景中的应用能力。此外,其创新的混合推理模型设计,支持快速思考和深度思考的统一框架,为复杂推理任务提供了新的解决方案,填补了现有模型在多功能推理能力上的空白。
实际应用
在实际应用中,Compass-v2数据集被广泛应用于东南亚地区的电子商务平台,如Shopee的搜索推荐、视频聊天和直播支持等场景。其高效的多语言处理能力使得平台能够更好地理解用户意图,提升转化率和客户参与度。此外,该数据集还支持跨语言产品信息管理和用户反馈分析,为全球电子商务平台提供了强大的技术支持。
数据集最近研究
最新研究方向
随着多语言大模型在东南亚电商领域的应用需求日益增长,Compass-v2数据集的最新研究聚焦于三个核心方向:首先,针对东南亚低资源语言的优化成为研究热点,通过定制化分词器和混合专家架构提升印尼语、泰语等语言的压缩率与理解能力;其次,电商垂直领域的深度适配引发广泛关注,研究团队构建了涵盖商品匹配、评论分析等12类任务的百亿级token行业数据集,显著提升了多语言场景下的商品推荐准确率;第三,混合推理框架的创新设计突破了传统模型的局限性,通过统一架构实现快速响应与深度思考的动态平衡,在32k长文本理解任务中达到97.3%的准确率。这些进展不仅填补了东南亚语言模型的空白,更为多模态电商助手等应用提供了关键技术支撑。
相关研究论文
- 1Compass-V2 Technical ReportShopee LLM Team · 2025年
以上内容由遇见数据集搜集并总结生成



