five

gursi26/wikihow-cleaned

收藏
Hugging Face2023-08-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gursi26/wikihow-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于抽象文本摘要的Wikihow数据集的清理版本。对原始数据集所做的更改包括将所有单词转换为小写、删除除句号、逗号和连字符外的所有标点符号、在标点符号前后添加空格、删除数据集中的NA值以及删除前导和尾随的换行符和空格字符。这些更改旨在简化标记化过程。
提供机构:
gursi26
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-sa-3.0
  • 任务类别:
    • 摘要生成
    • 文本生成
  • 语言: 英语
  • 数据集大小: 100K<n<1M

数据集描述

Wikihow数据集的清洗版本,用于抽象文本摘要。

数据集修改

对原始数据集的修改包括:

  • 所有单词转换为小写
  • 除"."、","和"-"外的所有标点符号已移除
  • 所有标点符号前后添加空格
  • 删除NA值
  • 删除前导和尾随的换行符和空格字符

这些修改使得分词更加容易。

引用

@misc{koupaee2018wikihow, title={WikiHow: A Large Scale Text Summarization Dataset}, author={Mahnaz Koupaee and William Yang Wang}, year={2018}, eprint={1810.09305}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作