five

wangwilliamyang/wikihow

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/wangwilliamyang/wikihow
下载链接
链接失效反馈
官方服务:
资源简介:
--- paperswithcode_id: wikihow pretty_name: WikiHow dataset_info: - config_name: all features: - name: text dtype: string - name: headline dtype: string - name: title dtype: string splits: - name: train num_bytes: 513238309 num_examples: 157252 - name: validation num_bytes: 18246897 num_examples: 5599 - name: test num_bytes: 18276023 num_examples: 5577 download_size: 5460385 dataset_size: 549761229 - config_name: sep features: - name: text dtype: string - name: headline dtype: string - name: title dtype: string - name: overview dtype: string - name: sectionLabel dtype: string splits: - name: train num_bytes: 990499776 num_examples: 1060732 - name: validation num_bytes: 35173966 num_examples: 37932 - name: test num_bytes: 35271826 num_examples: 37800 download_size: 5460385 dataset_size: 1060945568 --- ### Contributions Thanks to [@thomwolf](https://github.com/thomwolf), [@lewtun](https://github.com/lewtun), [@patrickvonplaten](https://github.com/patrickvonplaten) for adding this dataset.

PaperWithCode 数据集标识:wikihow 展示名称:WikiHow 数据集详情: - 配置名称:all 特征字段: - 文本(text):字符串类型 - 标题(headline):字符串类型 - 文章标题(title):字符串类型 数据集拆分: - 训练集(train):占用字节数 513238309,样本总数 157252 - 验证集(validation):占用字节数 18246897,样本总数 5599 - 测试集(test):占用字节数 18276023,样本总数 5577 下载体积:5460385 字节 数据集总占用体积:549761229 字节 - 配置名称:sep 特征字段: - 文本(text):字符串类型 - 标题(headline):字符串类型 - 文章标题(title):字符串类型 - 概述(overview):字符串类型 - 章节标签(sectionLabel):字符串类型 数据集拆分: - 训练集(train):占用字节数 990499776,样本总数 1060732 - 验证集(validation):占用字节数 35173966,样本总数 37932 - 测试集(test):占用字节数 35271826,样本总数 37800 下载体积:5460385 字节 数据集总占用体积:1060945568 字节 贡献:感谢 [@thomwolf](https://github.com/thomwolf)、[@lewtun](https://github.com/lewtun)、[@patrickvonplaten](https://github.com/patrickvonplaten) 为本数据集的添加工作。
提供机构:
wangwilliamyang
原始信息汇总

WikiHow 数据集概述

数据集配置

配置名称:all

  • 特征:

    • text: 类型为 string
    • headline: 类型为 string
    • title: 类型为 string
  • 拆分:

    • train:
      • 字节数: 513238309
      • 样本数: 157252
    • validation:
      • 字节数: 18246897
      • 样本数: 5599
    • test:
      • 字节数: 18276023
      • 样本数: 5577
  • 下载大小: 5460385 字节

  • 数据集大小: 549761229 字节

配置名称:sep

  • 特征:

    • text: 类型为 string
    • headline: 类型为 string
    • title: 类型为 string
    • overview: 类型为 string
    • sectionLabel: 类型为 string
  • 拆分:

    • train:
      • 字节数: 990499776
      • 样本数: 1060732
    • validation:
      • 字节数: 35173966
      • 样本数: 37932
    • test:
      • 字节数: 35271826
      • 样本数: 37800
  • 下载大小: 5460385 字节

  • 数据集大小: 1060945568 字节

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集访问已被禁用,原因为原内容作者请求。它曾被用于训练多个句子相似性模型,表明可能包含相关文本数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作