five

benjaminvdb/dbrd

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/benjaminvdb/dbrd
下载链接
链接失效反馈
官方服务:
资源简介:
DBRD(Dutch Book Review Dataset)数据集包含超过110,000条荷兰语书籍评论,其中22,000条带有二元情感极性标签。该数据集旨在作为荷兰语情感分类的基准,填补了荷兰语中缺乏适合情感分类的标注数据的空白。数据集分为训练集、测试集和无监督集,分别用于不同的机器学习任务,如文本生成、文本分类和情感分类。数据集的评论来源于荷兰书籍评论网站Hebban,经过过滤去除了非荷兰语评论。

DBRD(Dutch Book Review Dataset)数据集包含超过110,000条荷兰语书籍评论,其中22,000条带有二元情感极性标签。该数据集旨在作为荷兰语情感分类的基准,填补了荷兰语中缺乏适合情感分类的标注数据的空白。数据集分为训练集、测试集和无监督集,分别用于不同的机器学习任务,如文本生成、文本分类和情感分类。数据集的评论来源于荷兰书籍评论网站Hebban,经过过滤去除了非荷兰语评论。
提供机构:
benjaminvdb
原始信息汇总

数据集概述

名称: DBRD (Dutch Book Review Dataset) 语言: 荷兰语 (nl) 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (cc-by-nc-sa-4.0) 多语言性: 单语种 大小: 100K<n<1M 源数据集: 原始数据 任务类别: 文本生成、填充掩码、文本分类 任务ID: 语言建模、掩码语言建模、情感分类 论文代码ID: dbrd 美观名称: DBRD

数据集结构

  • 特征:
    • text: 字符串类型
    • label: 分类标签,0 (neg) 或 1 (pos)
  • 配置名称: plain_text
  • 数据分割:
    • train: 20028个实例,29496333字节
    • test: 2224个实例,3246243字节
    • unsupervised: 96264个实例,152733031字节
  • 下载大小: 79065872字节
  • 数据集大小: 185475607字节

数据集创建

  • 来源数据: 来自荷兰的书籍评论网站Hebban
  • 注释: 通过将用户提供的1至5星评级映射到正面或负面标签来生成
  • 个人和敏感信息: 数据集不包含个人或敏感信息

使用数据集的考虑

  • 社会影响: 主要用于模型基准测试,特别是在荷兰语情感分类任务中
  • 偏见讨论: 待补充
  • 其他已知限制: 可能包含非荷兰语文本和商业内容,可能影响模型性能
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作