nyuuzyou/cmc-posts
收藏Hugging Face2024-03-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/nyuuzyou/cmc-posts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是来自Coinmarketcap平台的帖子集合,Coinmarketcap是一个流行的加密货币平台。数据集包含大约100万条帖子,日期为2022年2月24日。然而,很大一部分帖子是垃圾邮件,这使得该数据集非常适合用于垃圾邮件检测。数据集结构包括以下字段:帖子ID(整数)、用户名(字符串)、用户标签(字符串)、帖子内容(字符串)、市场指标(字符串)和时间戳(字符串)。所有数据都位于训练集中,没有验证集。数据集使用CC0许可证,允许自由使用、修改和分发。
该数据集是来自Coinmarketcap平台的帖子集合,Coinmarketcap是一个流行的加密货币平台。数据集包含大约100万条帖子,日期为2022年2月24日。然而,很大一部分帖子是垃圾邮件,这使得该数据集非常适合用于垃圾邮件检测。数据集结构包括以下字段:帖子ID(整数)、用户名(字符串)、用户标签(字符串)、帖子内容(字符串)、市场指标(字符串)和时间戳(字符串)。所有数据都位于训练集中,没有验证集。数据集使用CC0许可证,允许自由使用、修改和分发。
提供机构:
nyuuzyou
原始信息汇总
数据集概述
基本信息
- 名称: Coinmarketcap Posts
- 语言: 俄语 (ru)
- 许可证: CC0-1.0
- 多语言性: 单语种
- 大小: 1M<n<10M
- 数据来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 语言建模
数据集详情
数据集概要
- 内容: 包含约100万条来自Coinmarketcap平台的帖子,主要收集于2022年2月24日。
- 特点: 数据集中包含大量垃圾信息,适合用于垃圾邮件检测。
数据结构
数据字段
id: 帖子标识符(整数)username: 发帖用户名(字符串)usertag: 用户唯一标签(字符串)content: 帖子文本(字符串)indicator: 与帖子相关的市场指标(字符串)timestamp: 发帖时间(字符串)
数据分割
- 分割方式: 所有数据均用于训练,无验证集。
附加信息
许可证
- 使用许可: 可用于任何目的,包括商业项目;可自由修改和分发,无需授权。
- 归属要求: 无需归属,但欢迎归属。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



