five

GePaSud/TROPICAL

收藏
Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GePaSud/TROPICAL
下载链接
链接失效反馈
官方服务:
资源简介:
TROPICAL数据集是一个用于情感分析的法语数据集,包含了法语游客在TripAdvisor上对法属波利尼西亚的酒店或宾馆的评论。数据集格式为JSON,时间跨度为2001年1月至2023年4月,包含1592条评论和10729个ASTE三元组(方面、观点、情感)。数据集分为三个配置:原始数据集、无重叠子集和重叠子集。每个配置都包含训练集、测试集和验证集。数据集的字段包括评论ID、评论词、三元组信息(方面词、观点词、方面位置、观点位置、情感极性)以及整体情感极性。

TROPICAL数据集是一个用于情感分析的法语数据集,包含了法语游客在TripAdvisor上对法属波利尼西亚的酒店或宾馆的评论。数据集格式为JSON,时间跨度为2001年1月至2023年4月,包含1592条评论和10729个ASTE三元组(方面、观点、情感)。数据集分为三个配置:原始数据集、无重叠子集和重叠子集。每个配置都包含训练集、测试集和验证集。数据集的字段包括评论ID、评论词、三元组信息(方面词、观点词、方面位置、观点位置、情感极性)以及整体情感极性。
提供机构:
GePaSud
原始信息汇总

数据集概述

数据集名称

TROPICAL

语言

法语

任务类别

文本分类

数据集配置

  • original_dataset

    • 数据文件路径:
      • 训练集: "original_dataset/train.jsonl"
      • 测试集: "original_dataset/test.jsonl"
      • 验证集: "original_dataset/val.jsonl"
    • 特征:
      • id_comment: 字符串
      • words: 字符串序列
      • triplets: 列表,包含:
        • aspect_term: 字符串序列
        • opinion_term: 字符串序列
        • aspect_position: 整数序列
        • opinion_position: 整数序列
        • polarity: 分类标签(POS: 0, NEG: 1, NEU: 2)
      • general_polarity: 分类标签(POS: 0, NEG: 1, NEU: 2)
    • 分割信息:
      • 训练集: 1114个样本,1115671字节
      • 测试集: 239个样本,239799字节
      • 验证集: 239个样本,237621字节
    • 下载大小: 2471854字节
    • 数据集大小: 1593091字节
  • overlapping_subset

    • 数据文件路径:
      • 训练集: "overlapping_subset/train.jsonl"
      • 测试集: "overlapping_subset/test.jsonl"
      • 验证集: "overlapping_subset/val.jsonl"
    • 特征与original_dataset相同
    • 下载大小: 1890439字节
    • 数据集大小: 1201600字节
  • no_overlapping_subset

    • 数据文件路径:
      • 训练集: "no_overlapping_subset/train.jsonl"
      • 测试集: "no_overlapping_subset/test.jsonl"
      • 验证集: "no_overlapping_subset/val.jsonl"
    • 特征与original_dataset相同
    • 分割信息:
      • 训练集: 326个样本,270313字节
      • 测试集: 70个样本,61779字节
      • 验证集: 71个样本,59399字节
    • 下载大小: 581415字节
    • 数据集大小: 391491字节

数据集结构

  • 数据实例格式为JSON
  • 数据字段包括评论ID、单词列表、三元组列表(包含方面术语、意见术语、方面位置、意见位置和极性)、总体极性

数据集使用

python from datasets import load_dataset dataset = load_dataset("TROPICAL", "original") # 或 "no_overlapping" 或 "overlapping"

许可证

MIT License

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作