five

razhan/imdb_ckb

收藏
Hugging Face2023-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/razhan/imdb_ckb
下载链接
链接失效反馈
官方服务:
资源简介:
IMDB Kurdish数据集是IMDB电影评论的库尔德语翻译版本,包含50K条高度极化的电影评论,分为正面和负面两类,适用于二分类情感分析任务。该数据集的可用性有助于研究人员和开发者训练和评估库尔德语处理的机器学习模型。需要注意的是,机器学习算法的准确性取决于其训练数据的质量(在本例中为翻译质量),因此数据集的质量和相关性将影响最终模型的性能。该数据集使用谷歌翻译进行翻译。
提供机构:
razhan
原始信息汇总

数据集概述

数据集名称

  • 名称: IMDB_CKB
  • 别名: IMDB Kurdish

数据集基本信息

  • 语言:
    • 中央库尔德语 (ckb)
    • 库尔德语 (ku)
  • 语言创建方式: 众包
  • 许可: 其他
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源数据集: 扩展自IMDB
  • 标签创建者: 专家生成
  • 任务类别: 文本分类
  • 任务ID:
    • 情感分析
    • 情感分类

数据集结构

  • 特征:
    • 文本: 字符串类型
    • 标签: 分类标签,可能值包括 neg (0), pos (1)
  • 配置名称: plain_text
  • 数据分割:
    • 训练集: 24903个样本
    • 测试集: 24692个样本

数据集创建

  • 翻译工具: Google Translator

引用信息

@InProceedings{maas-EtAl:2011:ACL-HLT2011, author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher}, title = {Learning Word Vectors for Sentiment Analysis}, booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies}, month = {June}, year = {2011}, address = {Portland, Oregon, USA}, publisher = {Association for Computational Linguistics}, pages = {142--150}, url = {http://www.aclweb.org/anthology/P11-1015} }

贡献者

  • 贡献者: Razhan Hameed
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作