five

nyuuzyou/cmc-posts

收藏
Hugging Face2024-03-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/nyuuzyou/cmc-posts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是来自Coinmarketcap平台的帖子集合,Coinmarketcap是一个流行的加密货币平台。数据集包含大约100万条帖子,日期为2022年2月24日。然而,很大一部分帖子是垃圾邮件,这使得该数据集非常适合用于垃圾邮件检测。数据集结构包括以下字段:帖子ID(整数)、用户名(字符串)、用户标签(字符串)、帖子内容(字符串)、市场指标(字符串)和时间戳(字符串)。所有数据都位于训练集中,没有验证集。数据集使用CC0许可证,允许自由使用、修改和分发。

该数据集是来自Coinmarketcap平台的帖子集合,Coinmarketcap是一个流行的加密货币平台。数据集包含大约100万条帖子,日期为2022年2月24日。然而,很大一部分帖子是垃圾邮件,这使得该数据集非常适合用于垃圾邮件检测。数据集结构包括以下字段:帖子ID(整数)、用户名(字符串)、用户标签(字符串)、帖子内容(字符串)、市场指标(字符串)和时间戳(字符串)。所有数据都位于训练集中,没有验证集。数据集使用CC0许可证,允许自由使用、修改和分发。
提供机构:
nyuuzyou
原始信息汇总

数据集概述

基本信息

  • 名称: Coinmarketcap Posts
  • 语言: 俄语 (ru)
  • 许可证: CC0-1.0
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 数据来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 语言建模

数据集详情

数据集概要

  • 内容: 包含约100万条来自Coinmarketcap平台的帖子,主要收集于2022年2月24日。
  • 特点: 数据集中包含大量垃圾信息,适合用于垃圾邮件检测。

数据结构

数据字段

  • id: 帖子标识符(整数)
  • username: 发帖用户名(字符串)
  • usertag: 用户唯一标签(字符串)
  • content: 帖子文本(字符串)
  • indicator: 与帖子相关的市场指标(字符串)
  • timestamp: 发帖时间(字符串)

数据分割

  • 分割方式: 所有数据均用于训练,无验证集。

附加信息

许可证

  • 使用许可: 可用于任何目的,包括商业项目;可自由修改和分发,无需授权。
  • 归属要求: 无需归属,但欢迎归属。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作