swaroop-nath/prompt-opin-summ

Name: swaroop-nath/prompt-opin-summ
Creator: swaroop-nath
Published: 2024-02-23 17:33:25
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/swaroop-nath/prompt-opin-summ

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练观点摘要模型，使用Mistral-7B模型生成。数据集包含20763个产品的训练集和5000个产品的验证集，每个产品最多有9个观点摘要。数据集格式为jsonl，每个json对象包含唯一ID、评论列表、摘要列表等信息。摘要列表中包含摘要文本、多个评分指标（如aspect-coverage、opinion-faithfulness等）以及摘要质量的布尔值标识。此外，还提供了读取数据集的Python代码示例和数据集的基本统计信息。

提供机构：

swaroop-nath

原始信息汇总

数据集概述

基本信息

许可证: MIT
任务类别: 摘要生成
语言: 英语
标签: 电子商务
数据集名称: prompt-opin-summ
数据集大小: 10K<n<100K

数据集生成

生成模型: Mistral-7B
训练集: 包含20763个产品，每个产品最多9个观点摘要
验证集: 包含5000个产品，每个产品最多9个观点摘要

数据格式

文件格式: jsonl
每行结构: json { "unique-id": "唯一ID", "reviews": "评论列表", "summaries": [ { "summary_text": "由Mistral-7B生成的观点摘要", "score": { "aspect-coverage": "方面覆盖得分（0到5，越高越好）", "opinion-faithfulness": "观点忠实度得分（0到5，越高越好）", "opinion-coverage": "观点覆盖得分（0到5，越高越好）", "relevance": "相关性得分（0到5，越高越好）", "conciseness": "简洁性得分（0到5，越高越好）", "hallucination": "幻觉得分（0到5，越高越好）", "language-correctness": "语言正确性得分（0到5，越高越好）" }, "is-good": "布尔值，指定摘要是否为好的", "is-sbad": "布尔值，指定摘要是否为稍差的", "is-vbad": "布尔值，指定摘要是否为非常差的" } ] }

数据集读取代码示例（Python）

python def read_dataset(data_path: str) -> List[Dict]: with open(data_path, r) as file: lines = file.readlines() dataset = [json.loads(line) for line in lines] # 需要json库 return dataset

数据集统计信息

Split	Characteristic	(mu)	(sigma)
train	# reviews	(13.24)	(10.07)
	# summaries	(8.90)	(0.34)
	# words in review	(49.0)	(10.78)
	# words in summary	(78.28)	(34.45)
valid	# reviews	(10.53)	(6.80)
	# summaries	(8.98)	(0.16)
	# words in review	(48.65)	(10.63)
	# words in summary	(74.26)	(34.27)

5,000+

优质数据集

54 个

任务类型

进入经典数据集