five

timpal0l/swedish_reviews

收藏
Hugging Face2024-07-16 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/timpal0l/swedish_reviews
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Swedish Reviews,主要用于情感分类任务。数据集包含103,482个样本,分为训练集、验证集和测试集。数据集是从瑞典的多个网站上抓取的评论数据,原始数据集中正面评论占大多数,因此该样本数据集对负面评论进行了平衡处理。数据集的文本为瑞典语,标签为0(负面)和1(正面)。数据集的创建者未提供详细的注释过程、数据收集和标准化方法,也未讨论数据的社会影响、偏见和其他限制。

The dataset is named Swedish Reviews and is primarily used for sentiment classification tasks. It contains 103,482 samples divided into training, validation, and test sets. The dataset was scraped from various Swedish websites containing reviews. The original dataset was heavily skewed towards positive reviews, so this sample dataset has been balanced to the minority class (negative). The text in the dataset is in Swedish, and the labels are 0 (negative) and 1 (positive). The dataset creators did not provide detailed annotation processes, data collection, and normalization methods, nor did they discuss the social impact, biases, and other limitations of the data.
提供机构:
timpal0l
原始信息汇总

数据集概述

  • 名称: Swedish Reviews
  • 语言: 瑞典语(sv)
  • 多语言性: 单语种
  • 许可: 未知
  • 数据集大小: 31498659字节
  • 下载大小: 11841056字节
  • 源数据: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 情感分类
  • 数据集特征:
    • text: 字符串类型,包含情感表达的文本
    • label: 类别标签,0代表负面,1代表正面
  • 数据分割:
    • train: 62089样本,18842891字节
    • validation: 20696样本,6359227字节
    • test: 20697样本,6296541字节

数据集详细信息

  • 数据来源: 来自多个瑞典网站的产品评论
  • 数据集创建:
    • 注释过程: 自动注释,基于用户评论的评分(1-5),其中1-2为负面,4-5为正面,3为中性不考虑
    • 注释者: 使用产品的用户
  • 使用考虑:
    • 数据偏见: 未提供详细信息
    • 其他已知限制: 未提供详细信息

附加信息

  • 数据集创建者: @timpal0l
  • 许可信息: 仅供研究使用
  • 引用信息: 当前无相关论文
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作