wangwilliamyang/wikihow
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/wangwilliamyang/wikihow
下载链接
链接失效反馈官方服务:
资源简介:
---
paperswithcode_id: wikihow
pretty_name: WikiHow
dataset_info:
- config_name: all
features:
- name: text
dtype: string
- name: headline
dtype: string
- name: title
dtype: string
splits:
- name: train
num_bytes: 513238309
num_examples: 157252
- name: validation
num_bytes: 18246897
num_examples: 5599
- name: test
num_bytes: 18276023
num_examples: 5577
download_size: 5460385
dataset_size: 549761229
- config_name: sep
features:
- name: text
dtype: string
- name: headline
dtype: string
- name: title
dtype: string
- name: overview
dtype: string
- name: sectionLabel
dtype: string
splits:
- name: train
num_bytes: 990499776
num_examples: 1060732
- name: validation
num_bytes: 35173966
num_examples: 37932
- name: test
num_bytes: 35271826
num_examples: 37800
download_size: 5460385
dataset_size: 1060945568
---
### Contributions
Thanks to [@thomwolf](https://github.com/thomwolf), [@lewtun](https://github.com/lewtun), [@patrickvonplaten](https://github.com/patrickvonplaten) for adding this dataset.
PaperWithCode 数据集标识:wikihow
展示名称:WikiHow
数据集详情:
- 配置名称:all
特征字段:
- 文本(text):字符串类型
- 标题(headline):字符串类型
- 文章标题(title):字符串类型
数据集拆分:
- 训练集(train):占用字节数 513238309,样本总数 157252
- 验证集(validation):占用字节数 18246897,样本总数 5599
- 测试集(test):占用字节数 18276023,样本总数 5577
下载体积:5460385 字节
数据集总占用体积:549761229 字节
- 配置名称:sep
特征字段:
- 文本(text):字符串类型
- 标题(headline):字符串类型
- 文章标题(title):字符串类型
- 概述(overview):字符串类型
- 章节标签(sectionLabel):字符串类型
数据集拆分:
- 训练集(train):占用字节数 990499776,样本总数 1060732
- 验证集(validation):占用字节数 35173966,样本总数 37932
- 测试集(test):占用字节数 35271826,样本总数 37800
下载体积:5460385 字节
数据集总占用体积:1060945568 字节
贡献:感谢 [@thomwolf](https://github.com/thomwolf)、[@lewtun](https://github.com/lewtun)、[@patrickvonplaten](https://github.com/patrickvonplaten) 为本数据集的添加工作。
提供机构:
wangwilliamyang
原始信息汇总
WikiHow 数据集概述
数据集配置
配置名称:all
-
特征:
text: 类型为stringheadline: 类型为stringtitle: 类型为string
-
拆分:
train:- 字节数: 513238309
- 样本数: 157252
validation:- 字节数: 18246897
- 样本数: 5599
test:- 字节数: 18276023
- 样本数: 5577
-
下载大小: 5460385 字节
-
数据集大小: 549761229 字节
配置名称:sep
-
特征:
text: 类型为stringheadline: 类型为stringtitle: 类型为stringoverview: 类型为stringsectionLabel: 类型为string
-
拆分:
train:- 字节数: 990499776
- 样本数: 1060732
validation:- 字节数: 35173966
- 样本数: 37932
test:- 字节数: 35271826
- 样本数: 37800
-
下载大小: 5460385 字节
-
数据集大小: 1060945568 字节
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集访问已被禁用,原因为原内容作者请求。它曾被用于训练多个句子相似性模型,表明可能包含相关文本数据。
以上内容由遇见数据集搜集并总结生成



