llm-book/wrime-sentiment
收藏Hugging Face2023-10-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/llm-book/wrime-sentiment
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- text-classification
language:
- ja
size_categories:
- 10K<n<100K
---
# Dataset Card for llm-book/wrime-sentiment
日本語の感情分析データセット WRIME を、ポジティブ/ネガティブの二値分類のタスクに加工したデータセットです。
GitHub リポジトリ [ids-cv/wrime](https://github.com/ids-cv/wrime) で公開されているデータセットを利用しています。
`Avg. Readers_Sentiment` の値が0より大きいものをポジティブ、0より小さいものをネガティブとラベル付をしています。
書籍『大規模言語モデル入門』のサンプルコードで利用することを想定しています。
詳しくは[書籍のGitHubリポジトリ](https://github.com/ghmagazine/llm-book)をご覧ください。
## 使い方
以下のようにデータセットを読み込むことができます。
```python
from datasets import load_dataset
dataset = load_dataset("hf_datasets/wrime-sentiment")
print(dataset["train"].features["label"])
print(dataset)
```
```python
ClassLabel(names=['positive', 'negative'], id=None)
DatasetDict({
train: Dataset({
features: ['sentence', 'label'],
num_rows: 20149
})
validation: Dataset({
features: ['sentence', 'label'],
num_rows: 1608
})
test: Dataset({
features: ['sentence', 'label'],
num_rows: 1781
})
})
```
デフォルトの設定では、元のデータセットから極性がニュートラルであるものを除いています。
`remove_netural=False`と指定することで、ニュートラルなデータも含めた三値分類のデータセットを読み込むことができます。
```python
from datasets import load_dataset
dataset = load_dataset("hf_datasets/wrime-sentiment", remove_neutral=False)
print(dataset["train"].features["label"])
print(dataset)
```
```python
ClassLabel(names=['positive', 'negative', 'neutral'], id=None)
DatasetDict({
train: Dataset({
features: ['sentence', 'label'],
num_rows: 30000
})
validation: Dataset({
features: ['sentence', 'label'],
num_rows: 2500
})
test: Dataset({
features: ['sentence', 'label'],
num_rows: 2500
})
})
```
任务类别:
- 文本分类
语言:
- 日语
样本规模区间:
- 10000 < 样本量 < 100000
---
# 数据集卡片:llm-book/wrime-sentiment
本数据集为将日文情感分析数据集WRIME加工为积极/消极二分类任务的专用数据集。
本数据集采用了GitHub仓库[ids-cv/wrime](https://github.com/ids-cv/wrime)中公开的原始数据集。
我们以`Avg. Readers_Sentiment`(平均读者情感得分)的取值为依据:分值大于0的样本标记为积极,小于0的样本标记为消极。
本数据集旨在用于书籍《大语言模型(Large Language Model)入门》的示例代码中,详细信息请参阅[该书的GitHub仓库](https://github.com/ghmagazine/llm-book)。
## 使用方法
您可以通过如下方式加载该数据集:
python
from datasets import load_dataset
dataset = load_dataset("hf_datasets/wrime-sentiment")
print(dataset["train"].features["label"])
print(dataset)
python
ClassLabel(names=['positive', 'negative'], id=None)
DatasetDict({
train: Dataset({
features: ['sentence', 'label'],
num_rows: 20149
})
validation: Dataset({
features: ['sentence', 'label'],
num_rows: 1608
})
test: Dataset({
features: ['sentence', 'label'],
num_rows: 1781
})
})
默认配置下,我们会从原始数据集中剔除情感为中性的样本。通过指定`remove_neutral=False`,即可加载包含中性数据的三分类数据集。
python
from datasets import load_dataset
dataset = load_dataset("hf_datasets/wrime-sentiment", remove_neutral=False)
print(dataset["train"].features["label"])
print(dataset)
python
ClassLabel(names=['positive', 'negative', 'neutral'], id=None)
DatasetDict({
train: Dataset({
features: ['sentence', 'label'],
num_rows: 30000
})
validation: Dataset({
features: ['sentence', 'label'],
num_rows: 2500
})
test: Dataset({
features: ['sentence', 'label'],
num_rows: 2500
})
})
提供机构:
llm-book
原始信息汇总
数据集概述
数据集名称
- 名称: llm-book/wrime-sentiment
数据集描述
- 描述: 该数据集是对日语情感分析数据集WRIME进行加工,用于正负二值分类任务。数据来源于GitHub仓库ids-cv/wrime。
数据集特征
- 语言: 日语
- 任务类别: 文本分类
- 数据大小: 10K<n<100K
数据集内容
- 分类方式: 根据
Avg. Readers_Sentiment的值,大于0的标记为正,小于0的标记为负。 - 数据结构: 包含sentence和label两个特征。
- 数据划分:
- 训练集: 20149条记录
- 验证集: 1608条记录
- 测试集: 1781条记录
使用方法
- 默认配置: 不包含中性数据。
- 扩展配置: 通过设置
remove_neutral=False,可以包含中性数据,此时数据集包含正、负、中三类标签,数据量如下:- 训练集: 30000条记录
- 验证集: 2500条记录
- 测试集: 2500条记录
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,情感分析作为文本分类的重要分支,其数据集的构建质量直接影响模型性能。本数据集基于日语情感分析数据集WRIME,通过提取原始数据中读者情感评分(Avg. Readers_Sentiment)的数值特征进行二值化处理:将评分大于零的样本标注为积极情感,小于零的样本标注为消极情感。该过程剔除了情感中立的文本条目,形成专注于极性判断的标准化语料,最终构建出包含训练集、验证集与测试集的完整数据架构。
特点
作为日语情感分析领域的专项数据集,其核心特征体现在数据结构的灵活性与标注逻辑的严谨性。数据集默认提供二分类情感标签(积极/消极),同时支持通过参数切换为包含中立类别的三分类体系,这种设计兼顾了不同研究场景的需求。数据规模控制在万级别,既保证统计显著性又避免冗余,每条数据均包含原始日语句子与经过量化评估的情感标签,为模型训练提供了高一致性的监督信号。
使用方法
在实践应用中,研究者可通过Hugging Face数据集库直接加载本数据集。使用标准加载函数时,系统默认返回二分类情感数据;若需包含中立样本的三分类数据,只需在加载时设置remove_neutral参数为False即可。数据集已预分割为训练集、验证集和测试集,用户可直接调用相应字段进行模型训练与评估,这种即用型设计显著降低了技术门槛,支持快速开展对比实验与算法验证。
背景与挑战
背景概述
情感分析作为自然语言处理领域的重要分支,其研究旨在通过计算模型识别文本中蕴含的情感倾向。日语情感分析数据集WRIME由日本研究机构IDS-CV于2021年创建,专注于解决日语文本中细腻情感表达的自动分类问题。该数据集通过采集社交媒体等真实场景的文本,构建了包含多层次情感标注的语料库,为日语自然语言处理研究提供了重要的基准资源,显著推动了跨语言情感分析模型的发展。
当前挑战
情感分析任务面临的核心挑战在于准确捕捉文本中复杂且隐含的情感语义,尤其在日语这类语境依赖性强、表达含蓄的语言中,模型需克服文化特定表达与情感极性模糊的难题。WRIME数据集的构建过程同样遭遇挑战,包括如何统一多位标注者对情感极性的主观判断,以及处理文本中中性情感样本的界定问题,这些因素直接影响数据集的标注一致性与模型训练的稳定性。
常用场景
经典使用场景
在自然语言处理领域,情感分析作为文本挖掘的核心任务之一,旨在识别文本中蕴含的情感倾向。llm-book/wrime-sentiment数据集以其精炼的日语文本标注,为研究者提供了经典的二值情感分类场景。该数据集通过将原始WRIME数据中的读者情感评分转化为明确的正面与负面标签,构建了一个结构清晰的监督学习框架,常用于训练和评估各类分类模型,特别是针对日语语境下的情感极性判别任务,成为该领域基准测试的重要资源。
解决学术问题
日语情感分析研究长期面临标注数据稀缺与语境复杂性并存的挑战。该数据集通过系统化处理WRIME原始语料,有效解决了情感极性标注的一致性与规模性问题。其意义在于为学术界提供了高质量、可复现的实验基准,促进了跨语言情感分析模型的比较与优化。该资源的开放显著降低了日语NLP研究的入门门槛,推动了基于深度学习的细粒度情感分析方法的创新,对自然语言理解技术的均衡发展产生了积极影响。
衍生相关工作
围绕该数据集,学术界与工业界衍生了一系列经典研究工作。许多研究以此为基础,探索了预训练语言模型在日语情感分析中的迁移学习效果,例如比较BERT变体在跨语言任务上的性能。同时,该数据集常被用于评估少样本学习与领域自适应方法的有效性,相关成果发表于自然语言处理顶级会议。部分工作进一步扩展了其应用,结合多任务学习框架,探索了情感分析与讽刺检测、立场分析等相邻任务的协同建模,丰富了日语情感计算的研究图谱。
以上内容由遇见数据集搜集并总结生成



