GePaSud/TROPICAL
收藏Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GePaSud/TROPICAL
下载链接
链接失效反馈官方服务:
资源简介:
TROPICAL数据集是一个用于情感分析的法语数据集,包含了法语游客在TripAdvisor上对法属波利尼西亚的酒店或宾馆的评论。数据集格式为JSON,时间跨度为2001年1月至2023年4月,包含1592条评论和10729个ASTE三元组(方面、观点、情感)。数据集分为三个配置:原始数据集、无重叠子集和重叠子集。每个配置都包含训练集、测试集和验证集。数据集的字段包括评论ID、评论词、三元组信息(方面词、观点词、方面位置、观点位置、情感极性)以及整体情感极性。
TROPICAL数据集是一个用于情感分析的法语数据集,包含了法语游客在TripAdvisor上对法属波利尼西亚的酒店或宾馆的评论。数据集格式为JSON,时间跨度为2001年1月至2023年4月,包含1592条评论和10729个ASTE三元组(方面、观点、情感)。数据集分为三个配置:原始数据集、无重叠子集和重叠子集。每个配置都包含训练集、测试集和验证集。数据集的字段包括评论ID、评论词、三元组信息(方面词、观点词、方面位置、观点位置、情感极性)以及整体情感极性。
提供机构:
GePaSud
原始信息汇总
数据集概述
数据集名称
TROPICAL
语言
法语
任务类别
文本分类
数据集配置
-
original_dataset
- 数据文件路径:
- 训练集: "original_dataset/train.jsonl"
- 测试集: "original_dataset/test.jsonl"
- 验证集: "original_dataset/val.jsonl"
- 特征:
- id_comment: 字符串
- words: 字符串序列
- triplets: 列表,包含:
- aspect_term: 字符串序列
- opinion_term: 字符串序列
- aspect_position: 整数序列
- opinion_position: 整数序列
- polarity: 分类标签(POS: 0, NEG: 1, NEU: 2)
- general_polarity: 分类标签(POS: 0, NEG: 1, NEU: 2)
- 分割信息:
- 训练集: 1114个样本,1115671字节
- 测试集: 239个样本,239799字节
- 验证集: 239个样本,237621字节
- 下载大小: 2471854字节
- 数据集大小: 1593091字节
- 数据文件路径:
-
overlapping_subset
- 数据文件路径:
- 训练集: "overlapping_subset/train.jsonl"
- 测试集: "overlapping_subset/test.jsonl"
- 验证集: "overlapping_subset/val.jsonl"
- 特征与original_dataset相同
- 下载大小: 1890439字节
- 数据集大小: 1201600字节
- 数据文件路径:
-
no_overlapping_subset
- 数据文件路径:
- 训练集: "no_overlapping_subset/train.jsonl"
- 测试集: "no_overlapping_subset/test.jsonl"
- 验证集: "no_overlapping_subset/val.jsonl"
- 特征与original_dataset相同
- 分割信息:
- 训练集: 326个样本,270313字节
- 测试集: 70个样本,61779字节
- 验证集: 71个样本,59399字节
- 下载大小: 581415字节
- 数据集大小: 391491字节
- 数据文件路径:
数据集结构
- 数据实例格式为JSON
- 数据字段包括评论ID、单词列表、三元组列表(包含方面术语、意见术语、方面位置、意见位置和极性)、总体极性
数据集使用
python from datasets import load_dataset dataset = load_dataset("TROPICAL", "original") # 或 "no_overlapping" 或 "overlapping"
许可证
MIT License



