polinaeterna/amazon_us_reviews
收藏Hugging Face2023-06-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/polinaeterna/amazon_us_reviews
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Amazon US Reviews,包含多个配置,如书籍、手表、个人护理电器等,每个配置都有特定的特征,如市场、客户ID、评论ID、产品ID等。数据集是单语的(英语),适用于摘要、文本生成、填充掩码和文本分类等多种任务。数据集规模较大,条目数在1亿到10亿之间。
该数据集名为Amazon US Reviews,包含多个配置,如书籍、手表、个人护理电器等,每个配置都有特定的特征,如市场、客户ID、评论ID、产品ID等。数据集是单语的(英语),适用于摘要、文本生成、填充掩码和文本分类等多种任务。数据集规模较大,条目数在1亿到10亿之间。
提供机构:
polinaeterna
原始信息汇总
数据集概述
基本信息
- 数据集名称: Amazon US Reviews
- 语言: 英语 (en)
- 许可证: 其他 (other)
- 多语言性: 单语 (monolingual)
- 大小类别: 100M<n<1B
- 源数据集: 原始 (original)
任务类别
- 摘要生成 (summarization)
- 文本生成 (text-generation)
- 填空 (fill-mask)
- 文本分类 (text-classification)
具体任务
- 文本评分 (text-scoring)
- 语言建模 (language-modeling)
- 掩码语言建模 (masked-language-modeling)
- 情感分类 (sentiment-classification)
- 情感评分 (sentiment-scoring)
- 主题分类 (topic-classification)
数据集配置和特征
- 配置名称: 多个,如 Books_v1_01, Watches_v1_00 等
- 特征:
- marketplace: 字符串
- customer_id: 字符串
- review_id: 字符串
- product_id: 字符串
- product_parent: 字符串
- product_title: 字符串
- product_category: 字符串
- star_rating: 整数 (int32)
- helpful_votes: 整数 (int32)
- total_votes: 整数 (int32)
- vine: 分类标签,0: N, 1: Y
- verified_purchase: 分类标签,0: N, 1: Y
- review_headline: 字符串
- review_body: 字符串
- review_date: 字符串
数据集大小和下载信息
- 训练集大小: 不同配置下大小不同,例如:
- Books_v1_01: 6997552259 字节, 6106719 示例
- Watches_v1_00: 458976082 字节, 960872 示例
- 下载大小也因配置而异,如 Books_v1_01 为 2692708591 字节。
结论
Amazon US Reviews 数据集是一个大型单语英语数据集,适用于多种自然语言处理任务,包括摘要生成、文本生成、填空和文本分类等。数据集包含多个配置,每个配置针对不同的产品类别,提供丰富的特征信息,如产品详情、用户评价和购买验证状态等。



