winvoker/turkish-sentiment-analysis-dataset
收藏Hugging Face2023-07-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/winvoker/turkish-sentiment-analysis-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自多个数据源的正向、负向和中性句子。大多数情感模型只有正向和负向两个标签,但用户输入可能是完全中性的句子。为了解决这个问题,创建者构建了这个包含三个类别的数据集。正向和负向句子来自多个来源,中性句子则从土耳其维基百科数据中提取,并添加了一些随机文本输入。数据集共有492,782条标注句子,其中10%用于测试。
This dataset encompasses positive, negative, and neutral sentences collected from multiple data sources. Most current sentiment analysis models only utilize two labels (positive and negative), yet user inputs often include entirely neutral sentences. To resolve this limitation, the dataset creators developed this three-class classification dataset. Positive and negative sentences are obtained from various sources, while neutral sentences are extracted from Turkish Wikipedia corpus supplemented with some random text inputs. The total number of annotated sentences in the dataset is 492,782, with 10% set aside for testing.
提供机构:
winvoker
原始信息汇总
数据集概述
基本信息
- 名称: Turkish Sentiment Dataset
- 语言: 土耳其语(tr)
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语种
- 注释创建者: 众包、专家生成
- 语言创建者: 众包
数据集内容
- 任务类别: 文本分类
- 任务ID: 情感分类
- 数据集大小: 未知
- 数据集描述: 包含正、负和无特定情感(notr)的句子。这些句子来源于多个数据源,其中无特定情感的句子提取自土耳其语维基百科数据。此外,还包括一些随机文本输入,如“Lorem ipsum dolor sit amet.”。
- 标注句子数量: 492,782
- 测试集比例: 10%
数据集来源
- 未明确列出具体的数据源,但提供了一些参考链接,包括Kaggle和GitHub上的相关项目链接。



