five

polinaeterna/amazon_us_reviews

收藏
Hugging Face2023-06-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/polinaeterna/amazon_us_reviews
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Amazon US Reviews,包含多个配置,如书籍、手表、个人护理电器等,每个配置都有特定的特征,如市场、客户ID、评论ID、产品ID等。数据集是单语的(英语),适用于摘要、文本生成、填充掩码和文本分类等多种任务。数据集规模较大,条目数在1亿到10亿之间。

该数据集名为Amazon US Reviews,包含多个配置,如书籍、手表、个人护理电器等,每个配置都有特定的特征,如市场、客户ID、评论ID、产品ID等。数据集是单语的(英语),适用于摘要、文本生成、填充掩码和文本分类等多种任务。数据集规模较大,条目数在1亿到10亿之间。
提供机构:
polinaeterna
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Amazon US Reviews
  • 语言: 英语 (en)
  • 许可证: 其他 (other)
  • 多语言性: 单语 (monolingual)
  • 大小类别: 100M<n<1B
  • 源数据集: 原始 (original)

任务类别

  • 摘要生成 (summarization)
  • 文本生成 (text-generation)
  • 填空 (fill-mask)
  • 文本分类 (text-classification)

具体任务

  • 文本评分 (text-scoring)
  • 语言建模 (language-modeling)
  • 掩码语言建模 (masked-language-modeling)
  • 情感分类 (sentiment-classification)
  • 情感评分 (sentiment-scoring)
  • 主题分类 (topic-classification)

数据集配置和特征

  • 配置名称: 多个,如 Books_v1_01, Watches_v1_00 等
  • 特征:
    • marketplace: 字符串
    • customer_id: 字符串
    • review_id: 字符串
    • product_id: 字符串
    • product_parent: 字符串
    • product_title: 字符串
    • product_category: 字符串
    • star_rating: 整数 (int32)
    • helpful_votes: 整数 (int32)
    • total_votes: 整数 (int32)
    • vine: 分类标签,0: N, 1: Y
    • verified_purchase: 分类标签,0: N, 1: Y
    • review_headline: 字符串
    • review_body: 字符串
    • review_date: 字符串

数据集大小和下载信息

  • 训练集大小: 不同配置下大小不同,例如:
    • Books_v1_01: 6997552259 字节, 6106719 示例
    • Watches_v1_00: 458976082 字节, 960872 示例
    • 下载大小也因配置而异,如 Books_v1_01 为 2692708591 字节。

结论

Amazon US Reviews 数据集是一个大型单语英语数据集,适用于多种自然语言处理任务,包括摘要生成、文本生成、填空和文本分类等。数据集包含多个配置,每个配置针对不同的产品类别,提供丰富的特征信息,如产品详情、用户评价和购买验证状态等。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作