five

napsternxg/nyt_ingredients

收藏
Hugging Face2023-10-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/napsternxg/nyt_ingredients
下载链接
链接失效反馈
官方服务:
资源简介:
New York Times Ingredient Phrase Tagger Dataset是一个用于从非结构化成分短语中提取数量、单位、名称和评论的数据集。数据集由专家生成,语言为英语,创建者未明确说明,但语言是从现有资源中找到的。数据集是单语言的,遵循Apache 2.0许可证。数据集的大小在10万到100万之间,标签包括食谱和成分,任务类别为令牌分类,具体任务为命名实体识别。数据集的原始来源是纽约时报的一个GitHub仓库,该仓库使用条件随机场模型(CRF)从标记的训练数据中提取标签,这些数据由人类新闻助理标记。
提供机构:
napsternxg
原始信息汇总

数据集概述

基本信息

  • 名称: New York Times Ingredient Phrase Tagger Dataset
  • 语言: 英语 (en)
  • 语言创建者: 发现 (found)
  • 许可证: Apache-2.0
  • 多语言性: 单语 (monolingual)
  • 大小: 10万<n<100万

详细描述

  • 标签:
    • 食谱 (recipe)
    • 成分 (ingredients)
  • 任务类别:
    • 令牌分类 (token-classification)
  • 任务ID:
    • 命名实体识别 (named-entity-recognition)

数据来源

数据集创建

  • 注释创建者: 专家生成 (expert-generated)
  • 数据处理方法: 使用条件随机场模型 (CRF) 从标记的训练数据中提取标签,该数据由人类新闻助理标记。

数据集用途

  • 用于从非结构化的成分短语中提取数量、单位、名称和评论,并应用于烹饪以格式化传入的食谱。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作