gursi26/wikihow-cleaned
收藏Hugging Face2023-08-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gursi26/wikihow-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于抽象文本摘要的Wikihow数据集的清理版本。对原始数据集所做的更改包括将所有单词转换为小写、删除除句号、逗号和连字符外的所有标点符号、在标点符号前后添加空格、删除数据集中的NA值以及删除前导和尾随的换行符和空格字符。这些更改旨在简化标记化过程。
提供机构:
gursi26
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-nc-sa-3.0
- 任务类别:
- 摘要生成
- 文本生成
- 语言: 英语
- 数据集大小: 100K<n<1M
数据集描述
Wikihow数据集的清洗版本,用于抽象文本摘要。
数据集修改
对原始数据集的修改包括:
- 所有单词转换为小写
- 除"."、","和"-"外的所有标点符号已移除
- 所有标点符号前后添加空格
- 删除NA值
- 删除前导和尾随的换行符和空格字符
这些修改使得分词更加容易。
引用
@misc{koupaee2018wikihow, title={WikiHow: A Large Scale Text Summarization Dataset}, author={Mahnaz Koupaee and William Yang Wang}, year={2018}, eprint={1810.09305}, archivePrefix={arXiv}, primaryClass={cs.CL} }



