Text Classification Dataset
收藏Snowflake2025-05-21 更新2025-05-22 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZU6Z2CS5YN
下载链接
链接失效反馈官方服务:
资源简介:
The **Text Classification Dataset** is a production-ready corpus of **1M+** real-world text snippets drawn from forums, chat logs, customer reviews, and social media. Each entry pairs a human-written sentence with one of **10 distinct behavior labels** (persuasion, cooperation, frustration, curiosity, agreement, disagreement, apology, request, complaint, instruction), along with provenance metadata to help you understand context and apply domain-specific filters.
- **Scope:** Spans four major source domains—forum posts, live chat excerpts, product reviews, and social-media comments—to capture how behaviors manifest across different communication channels.
- **Scale:** 1M+ examples, balanced across all behavior categories, giving you enough data to train deep classifiers, benchmark transfer-learning models, or stress-test annotation pipelines.
- **Value:**
- **Expert annotations** ensure high label quality for behavior and sentiment modeling.
- **Built-in metadata** (source domain, timestamp) lets you segment or weight your training data.
- **Easy integration** via Snowflake tables with zero extra processing.
Use this dataset to accelerate development of sophisticated NLP models—whether you’re fine-tuning a transformer for nuanced sentiment analysis, building behavior-aware chatbots, or powering automated moderation systems with real-world behavior cues.
提供机构:
Datadome LLC
创建时间:
2025-05-19
原始信息汇总
Text Classification Dataset 概述
数据集基本信息
- 提供商: Datadome LLC
- 价格: $1/月
- 试用: 提供30天有限试用
- 数据集规模: 1M+ 真实世界文本片段
- 标签类型: 10种不同的人类行为标签(说服、合作、沮丧、好奇、同意、不同意、道歉、请求、投诉、指示)
- 数据来源: 论坛帖子、聊天记录、客户评论、社交媒体评论
数据集特点
- 范围: 涵盖四大主要来源领域——论坛帖子、实时聊天摘录、产品评论和社交媒体评论
- 规模: 1M+ 示例,所有行为类别均衡分布
- 价值:
- 专家注释确保标签质量
- 内置元数据(来源域、时间戳)支持数据分段或加权
- 通过Snowflake表轻松集成,无需额外处理
业务需求
- 情感分析: 帮助组织理解客户行为背后的原因,识别说服策略、早期发现沮丧情绪,并根据细微线索定制响应
- 行为洞察: 将日常文本映射到可操作的行为类别
- 渠道不可知论: 涵盖论坛、聊天、评论和社交媒体,实现跨所有客户接触点的统一分析
- 模型准备: 预标记、平衡的示例加速模型训练
- 运营效率: 嵌入元数据用于分段(时间戳、来源),监控趋势或检测新兴痛点
使用示例
- 预览样本: 提供SQL查询示例以预览数据集
分类
- AI & ML
- 情感分析
联系信息
- 销售: info@datadome.io
- 支持: support@datadome.io
数据集更新与覆盖
- 刷新频率: 每周
- 时间覆盖: 最近7天(按天)
- 地理覆盖: 美国(按国家)
云区域可用性
- AWS: 美国东部(北弗吉尼亚)
法律条款
- 标准条款
关于提供商
- Datadome.io是一个API优先的自然语言处理平台,通过简单的REST端点提供情感分析、文本相似性评分、命名实体提取和主题分类。



