five

swaroop-nath/prompt-opin-summ

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/swaroop-nath/prompt-opin-summ
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于训练观点摘要模型,使用Mistral-7B模型生成。数据集包含20763个产品的训练集和5000个产品的验证集,每个产品最多有9个观点摘要。数据集格式为jsonl,每个json对象包含唯一ID、评论列表、摘要列表等信息。摘要列表中包含摘要文本、多个评分指标(如aspect-coverage、opinion-faithfulness等)以及摘要质量的布尔值标识。此外,还提供了读取数据集的Python代码示例和数据集的基本统计信息。

该数据集用于训练观点摘要模型,使用Mistral-7B模型生成。数据集包含20763个产品的训练集和5000个产品的验证集,每个产品最多有9个观点摘要。数据集格式为jsonl,每个json对象包含唯一ID、评论列表、摘要列表等信息。摘要列表中包含摘要文本、多个评分指标(如aspect-coverage、opinion-faithfulness等)以及摘要质量的布尔值标识。此外,还提供了读取数据集的Python代码示例和数据集的基本统计信息。
提供机构:
swaroop-nath
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 摘要生成
  • 语言: 英语
  • 标签: 电子商务
  • 数据集名称: prompt-opin-summ
  • 数据集大小: 10K<n<100K

数据集生成

  • 生成模型: Mistral-7B
  • 训练集: 包含20763个产品,每个产品最多9个观点摘要
  • 验证集: 包含5000个产品,每个产品最多9个观点摘要

数据格式

  • 文件格式: jsonl
  • 每行结构: json { "unique-id": "唯一ID", "reviews": "评论列表", "summaries": [ { "summary_text": "由Mistral-7B生成的观点摘要", "score": { "aspect-coverage": "方面覆盖得分(0到5,越高越好)", "opinion-faithfulness": "观点忠实度得分(0到5,越高越好)", "opinion-coverage": "观点覆盖得分(0到5,越高越好)", "relevance": "相关性得分(0到5,越高越好)", "conciseness": "简洁性得分(0到5,越高越好)", "hallucination": "幻觉得分(0到5,越高越好)", "language-correctness": "语言正确性得分(0到5,越高越好)" }, "is-good": "布尔值,指定摘要是否为好的", "is-sbad": "布尔值,指定摘要是否为稍差的", "is-vbad": "布尔值,指定摘要是否为非常差的" } ] }

数据集读取代码示例(Python)

python def read_dataset(data_path: str) -> List[Dict]: with open(data_path, r) as file: lines = file.readlines() dataset = [json.loads(line) for line in lines] # 需要json库 return dataset

数据集统计信息

Split Characteristic (mu) (sigma)
train # reviews (13.24) (10.07)
# summaries (8.90) (0.34)
# words in review (49.0) (10.78)
# words in summary (78.28) (34.45)
valid # reviews (10.53) (6.80)
# summaries (8.98) (0.16)
# words in review (48.65) (10.63)
# words in summary (74.26) (34.27)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作