five

AdamCodd/recipe-nlg-alpaca

收藏
Hugging Face2024-07-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/AdamCodd/recipe-nlg-alpaca
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从recipe-nlg中精心筛选的,仅包含来源为Gathered的数据。原始数据集存在大量的爬取伪影、拼写错误、Unicode字符、空的和非常短的食谱,这些都被移除。然后,数据集被格式化为Alpaca指令集,包含指令、输入和输出。原始数据集的食谱数量从约2M2减少到约500K。尽管数据集仍然不完美,但已经进行了大量清理工作。

A heavily curated dataset from recipe-nlg (source=Gathered only). A lot of scraping artifacts, typographical errors, unicode, empty and very short recipes were removed. Then it has been formatted into Alpaca instruction set with Instructions, Input and Output. The total number of recipes went from ~2M2 (original dataset) to ~500K. Obviously, its still not perfect (I wont lie, the original dataset was very flawed). To fully fix this would require a very time-consuming manual edition, so you can consider it a WIP.
提供机构:
AdamCodd
原始信息汇总

数据集概述

数据集来源与处理

  • 来源: 从recipe-nlg数据集中精选。
  • 处理: 移除了大量的抓取工件、排版错误、Unicode字符、空值和非常短的食谱。
  • 格式: 转换为Alpaca指令集格式,包含指令、输入和输出。
  • 规模: 从原始数据集的约220万条减少到约50万条。

数据集质量

  • 现状: 仍存在一些问题,需要耗时的手动编辑才能完全修复。
  • 状态: 视为正在进行中的工作(WIP)。

令牌分布分析

关键统计数据

  • 最小令牌数: 164
  • 最大令牌数: 3,285
  • 中位数(第50百分位): 274

百分位分布

百分位 令牌数
10% 192
20% 209
30% 228
40% 249
50% 274
60% 302
70% 337
80% 386
90% 467
100% 3,285

解释

  1. 范围: 令牌数范围从164到3,285。
  2. 集中趋势: 中位数为274,意味着一半的提示少于或等于274个令牌。
  3. 分布:
    • 90%的提示少于或等于467个令牌。
    • 从第90百分位到最大值有显著跳跃,表明存在一些高令牌数的异常值。
  4. 训练影响:
    • 序列长度为400-500个令牌可覆盖大多数提示。
    • 可能需要特殊处理高令牌数的异常值(如截断或分割)。

引用

bibtex @inproceedings{bien-etal-2020-recipenlg, title = "{R}ecipe{NLG}: A Cooking Recipes Dataset for Semi-Structured Text Generation", author = "Bie{ }, Micha{l} and Gilski, Micha{l} and Maciejewska, Martyna and Taisner, Wojciech and Wisniewski, Dawid and Lawrynowicz, Agnieszka", booktitle = "Proceedings of the 13th International Conference on Natural Language Generation", month = dec, year = "2020", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.inlg-1.4", pages = "22--28", }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于 recipe-nlg 烹饪食谱数据集的精炼版本,经过大量清理和格式化,转化为 Alpaca 指令集格式,包含指令、输入和输出,规模从原始约 220 万条缩减到约 50 万条。数据集以文本形式存储为 JSON 文件,大小为 150 MB,适用于自然语言生成任务,但存在一些残留问题,被视为进行中的工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作