swaroop-nath/prompt-opin-summ
收藏Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/swaroop-nath/prompt-opin-summ
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练观点摘要模型,使用Mistral-7B模型生成。数据集包含20763个产品的训练集和5000个产品的验证集,每个产品最多有9个观点摘要。数据集格式为jsonl,每个json对象包含唯一ID、评论列表、摘要列表等信息。摘要列表中包含摘要文本、多个评分指标(如aspect-coverage、opinion-faithfulness等)以及摘要质量的布尔值标识。此外,还提供了读取数据集的Python代码示例和数据集的基本统计信息。
该数据集用于训练观点摘要模型,使用Mistral-7B模型生成。数据集包含20763个产品的训练集和5000个产品的验证集,每个产品最多有9个观点摘要。数据集格式为jsonl,每个json对象包含唯一ID、评论列表、摘要列表等信息。摘要列表中包含摘要文本、多个评分指标(如aspect-coverage、opinion-faithfulness等)以及摘要质量的布尔值标识。此外,还提供了读取数据集的Python代码示例和数据集的基本统计信息。
提供机构:
swaroop-nath
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别: 摘要生成
- 语言: 英语
- 标签: 电子商务
- 数据集名称: prompt-opin-summ
- 数据集大小: 10K<n<100K
数据集生成
- 生成模型: Mistral-7B
- 训练集: 包含20763个产品,每个产品最多9个观点摘要
- 验证集: 包含5000个产品,每个产品最多9个观点摘要
数据格式
- 文件格式: jsonl
- 每行结构: json { "unique-id": "唯一ID", "reviews": "评论列表", "summaries": [ { "summary_text": "由Mistral-7B生成的观点摘要", "score": { "aspect-coverage": "方面覆盖得分(0到5,越高越好)", "opinion-faithfulness": "观点忠实度得分(0到5,越高越好)", "opinion-coverage": "观点覆盖得分(0到5,越高越好)", "relevance": "相关性得分(0到5,越高越好)", "conciseness": "简洁性得分(0到5,越高越好)", "hallucination": "幻觉得分(0到5,越高越好)", "language-correctness": "语言正确性得分(0到5,越高越好)" }, "is-good": "布尔值,指定摘要是否为好的", "is-sbad": "布尔值,指定摘要是否为稍差的", "is-vbad": "布尔值,指定摘要是否为非常差的" } ] }
数据集读取代码示例(Python)
python def read_dataset(data_path: str) -> List[Dict]: with open(data_path, r) as file: lines = file.readlines() dataset = [json.loads(line) for line in lines] # 需要json库 return dataset
数据集统计信息
| Split | Characteristic | (mu) | (sigma) |
|---|---|---|---|
| train | # reviews | (13.24) | (10.07) |
| # summaries | (8.90) | (0.34) | |
| # words in review | (49.0) | (10.78) | |
| # words in summary | (78.28) | (34.45) | |
| valid | # reviews | (10.53) | (6.80) |
| # summaries | (8.98) | (0.16) | |
| # words in review | (48.65) | (10.63) | |
| # words in summary | (74.26) | (34.27) |



