openfoodfacts/spellcheck-benchmark
收藏Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/openfoodfacts/spellcheck-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
Spellcheck Benchmark数据集由152个从Open Food Facts数据库中提取的成分列表组成,并经过校正以确保每个成分被识别。该数据集的目的是评估在遵循Open Food Facts(OFF)指南的情况下,对产品成分列表进行拼写检查的效果。部分数据是通过OpenAI-GPT3.5-Turbo生成的,并使用Argilla工具进行检查以确保生成的校正符合拼写检查的指导原则。
Spellcheck Benchmark数据集由152个从Open Food Facts数据库中提取的成分列表组成,并经过校正以确保每个成分被识别。该数据集的目的是评估在遵循Open Food Facts(OFF)指南的情况下,对产品成分列表进行拼写检查的效果。部分数据是通过OpenAI-GPT3.5-Turbo生成的,并使用Argilla工具进行检查以确保生成的校正符合拼写检查的指导原则。
提供机构:
openfoodfacts
原始信息汇总
数据集概述
基本信息
- 名称: Spellcheck Benchmark
- 版本: v5
- 语言: 包含多种语言,如法语、英语、罗马尼亚语、德语、西班牙语、意大利语、保加利亚语、荷兰语、希腊语、波兰语、葡萄牙语、斯洛伐克语等。
- 大小: 小于1000条记录
- 任务类别: 文本到文本生成
- 标签: 自然语言处理, 拼写检查
- 数据集大小: 243条记录
配置
- 配置名称: benchmark
- 数据文件: data/train-*
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 分割: train
- 数据文件:
数据集信息
- 特征:
- original: 字符串类型
- reference: 字符串类型
- is_truncated: 整数类型
- lang: 字符串类型
- data_origin: null类型
- 分割:
- 名称: train
- 字节数: 90282
- 示例数: 152
- 名称: train
- 下载大小: 61445
- 数据集大小: 90282
数据集用途
用于评估拼写检查在纠正产品成分列表中的应用,确保每种成分被正确识别,遵循Open Food Facts指南。



