Gossiping-QA-pos-Dataset-2_0.csv

github2023-05-06 更新2024-05-31 收录

下载链接：

https://github.com/voidful/Gossiping-Chinese-Positive-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

来自Gossiping-QA-Dataset-2_0.csv资料集，从其中774,114笔问答配对中做情绪分析，抽取所有预测正面情绪的句子(正面机率>50%)，最终整理出197926笔资料。资料格式调整为csv，包含了三个columns: `question`，`answer`和`positive probability`。

本数据集源自于Gossiping-QA-Dataset-2_0.csv，经筛选自774,114对问答资料中，针对情感分析任务，提炼出所有预测正面情绪（正面概率超过50%）的句子，最终汇聚成197,926条记录。资料格式已调整为csv，并包含三个字段：`问题`、`答案`及`正面概率`。

创建时间：

2020-03-03

原始信息汇总

Gossiping-Chinese-Positive-Corpus 数据集概述

数据集描述

文件信息

文件名: Gossiping-QA-pos-Dataset-2_0.csv
来源: 从 Gossiping-QA-Dataset-2_0.csv 中提取，该数据集包含 774,114 笔问答配对。
处理过程: 通过情绪分析，抽取预测正面情绪的句子（正面概率大于50%），最终整理出 197,926 笔资料。
数据量: 197,926 笔资料。
正面概率范围: 最低正面概率为 0.50，最高为 0.94，平均为 0.64。

数据格式

格式: CSV
列信息:
- question: 问题文本
- answer: 回答文本
- positive probability: 正面情绪概率

示例数据

csv 20 世紀還有媲美或超越鋼鍊的神作嗎,鋼鍊神在劇情從一開始就編排好了不是邊走邊想,0.789045512676239 紅色代表喜氣嗎,跟用過的衛生棉一樣嶄新的開始,0.7111006379127502 新年快樂姆咪姆咪,姆咪姆咪學金雞咕咕咕咕咕咕咕,0.7134743332862854 現在在超商值班的店員在想什麼,便利商店店員很辛苦好ㄇ,0.8957672715187073 本金城武感謝一年來八卦版肥宅的支持,這種萬年爛梗是還要用多久,0.7482118010520935 新年感恩送紅包,新年快樂收到感謝,0.8411140441894531

搜集汇总

数据集介绍

构建方式

Gossiping-QA-pos-Dataset-2_0.csv 数据集的构建基于 zake7749 的 Gossiping-Chinese-Corpus，通过情感分析技术从中筛选出正面情绪对话语料。具体而言，从原始的 774,114 条问答对中，筛选出正面概率大于 50% 的对话，最终整理出 197,926 条数据。每条数据包含问题、回答及正面概率三个字段，正面概率范围在 0.50 至 0.94 之间，平均值为 0.64。数据以 CSV 格式存储，便于后续分析与应用。

特点

该数据集的特点在于其专注于中文网络社区中的正面情绪对话，涵盖了丰富的日常话题与情感表达。数据经过严格的情感分析筛选，确保了每条对话的正面情绪概率均超过 50%，且概率分布较为集中，平均值为 0.64。这种高纯度的正面情绪语料为情感分析、对话系统训练等任务提供了高质量的数据支持。此外，数据格式简洁明了，包含问题、回答及正面概率三个字段，便于直接应用于机器学习模型的训练与评估。

使用方法

Gossiping-QA-pos-Dataset-2_0.csv 数据集适用于多种自然语言处理任务，如情感分析、对话生成及情感对话系统的训练。用户可通过读取 CSV 文件获取数据，并利用问题与回答字段进行模型训练。正面概率字段可用于情感分类任务的标签或模型评估的参考指标。此外，该数据集还可用于研究中文网络社区中的情感表达模式，或作为情感对话系统的基准数据集。使用时可结合机器学习框架如 TensorFlow 或 PyTorch，进行模型的训练与优化。

背景与挑战

背景概述

Gossiping-QA-pos-Dataset-2_0.csv 数据集源于PTT八卦版的中文对话语料，由zake7749的Gossiping-Chinese-Corpus进一步筛选而成。该数据集创建于对中文社交媒体情感分析的需求日益增长的背景下，旨在为自然语言处理领域提供高质量的正面情感对话数据。通过对774,114条问答对进行情感分析，筛选出197,926条正面情感概率超过50%的对话，涵盖了广泛的话题和语境。该数据集的构建不仅为情感分析、对话系统等研究提供了重要资源，也为理解中文社交媒体中的情感表达模式提供了新的视角。

当前挑战

Gossiping-QA-pos-Dataset-2_0.csv 数据集在构建过程中面临多重挑战。首先，情感分析的准确性是关键问题，尤其是在中文语境下，情感表达的多样性和复杂性使得正面情感的界定变得尤为困难。其次，数据清洗和格式转换过程中，如何保留原始对话的语义完整性和情感倾向，同时确保数据的标准化和可用性，是另一大挑战。此外，数据集的规模虽然较大，但其覆盖的话题和情感表达仍可能存在偏差，如何进一步扩展和平衡数据集以提升其泛化能力，也是未来需要解决的问题。

常用场景

经典使用场景

Gossiping-QA-pos-Dataset-2_0.csv 数据集广泛应用于自然语言处理领域，特别是在情感分析和对话系统开发中。该数据集通过筛选出具有正面情绪的对话语料，为研究者提供了一个高质量的中文情感分析基准。其经典使用场景包括训练和评估情感分类模型，以及构建能够理解和生成正面回应的对话系统。

衍生相关工作

基于 Gossiping-QA-pos-Dataset-2_0.csv 数据集，研究者们开发了多种情感分析模型和对话系统。例如，一些研究利用该数据集训练了基于深度学习的多模态情感分类模型，显著提升了情感识别的准确性。此外，该数据集还启发了对话生成模型的研究，使得生成的对话内容更加符合用户的情绪需求，推动了情感智能领域的发展。

数据集最近研究