napsternxg/nyt_ingredients
收藏Hugging Face2023-10-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/napsternxg/nyt_ingredients
下载链接
链接失效反馈官方服务:
资源简介:
New York Times Ingredient Phrase Tagger Dataset是一个用于从非结构化成分短语中提取数量、单位、名称和评论的数据集。数据集由专家生成,语言为英语,创建者未明确说明,但语言是从现有资源中找到的。数据集是单语言的,遵循Apache 2.0许可证。数据集的大小在10万到100万之间,标签包括食谱和成分,任务类别为令牌分类,具体任务为命名实体识别。数据集的原始来源是纽约时报的一个GitHub仓库,该仓库使用条件随机场模型(CRF)从标记的训练数据中提取标签,这些数据由人类新闻助理标记。
提供机构:
napsternxg
原始信息汇总
数据集概述
基本信息
- 名称: New York Times Ingredient Phrase Tagger Dataset
- 语言: 英语 (en)
- 语言创建者: 发现 (found)
- 许可证: Apache-2.0
- 多语言性: 单语 (monolingual)
- 大小: 10万<n<100万
详细描述
- 标签:
- 食谱 (recipe)
- 成分 (ingredients)
- 任务类别:
- 令牌分类 (token-classification)
- 任务ID:
- 命名实体识别 (named-entity-recognition)
数据来源
数据集创建
- 注释创建者: 专家生成 (expert-generated)
- 数据处理方法: 使用条件随机场模型 (CRF) 从标记的训练数据中提取标签,该数据由人类新闻助理标记。
数据集用途
- 用于从非结构化的成分短语中提取数量、单位、名称和评论,并应用于烹饪以格式化传入的食谱。



