benjaminvdb/dbrd
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/benjaminvdb/dbrd
下载链接
链接失效反馈官方服务:
资源简介:
DBRD(Dutch Book Review Dataset)数据集包含超过110,000条荷兰语书籍评论,其中22,000条带有二元情感极性标签。该数据集旨在作为荷兰语情感分类的基准,填补了荷兰语中缺乏适合情感分类的标注数据的空白。数据集分为训练集、测试集和无监督集,分别用于不同的机器学习任务,如文本生成、文本分类和情感分类。数据集的评论来源于荷兰书籍评论网站Hebban,经过过滤去除了非荷兰语评论。
DBRD(Dutch Book Review Dataset)数据集包含超过110,000条荷兰语书籍评论,其中22,000条带有二元情感极性标签。该数据集旨在作为荷兰语情感分类的基准,填补了荷兰语中缺乏适合情感分类的标注数据的空白。数据集分为训练集、测试集和无监督集,分别用于不同的机器学习任务,如文本生成、文本分类和情感分类。数据集的评论来源于荷兰书籍评论网站Hebban,经过过滤去除了非荷兰语评论。
提供机构:
benjaminvdb
原始信息汇总
数据集概述
名称: DBRD (Dutch Book Review Dataset) 语言: 荷兰语 (nl) 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (cc-by-nc-sa-4.0) 多语言性: 单语种 大小: 100K<n<1M 源数据集: 原始数据 任务类别: 文本生成、填充掩码、文本分类 任务ID: 语言建模、掩码语言建模、情感分类 论文代码ID: dbrd 美观名称: DBRD
数据集结构
- 特征:
text: 字符串类型label: 分类标签,0 (neg) 或 1 (pos)
- 配置名称: plain_text
- 数据分割:
train: 20028个实例,29496333字节test: 2224个实例,3246243字节unsupervised: 96264个实例,152733031字节
- 下载大小: 79065872字节
- 数据集大小: 185475607字节
数据集创建
- 来源数据: 来自荷兰的书籍评论网站Hebban
- 注释: 通过将用户提供的1至5星评级映射到正面或负面标签来生成
- 个人和敏感信息: 数据集不包含个人或敏感信息
使用数据集的考虑
- 社会影响: 主要用于模型基准测试,特别是在荷兰语情感分类任务中
- 偏见讨论: 待补充
- 其他已知限制: 可能包含非荷兰语文本和商业内容,可能影响模型性能



