openfoodfacts/spellcheck-benchmark

Name: openfoodfacts/spellcheck-benchmark
Creator: openfoodfacts
Published: 2024-07-19 14:23:58
License: 暂无描述

Hugging Face2024-07-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/openfoodfacts/spellcheck-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Spellcheck Benchmark数据集由152个从Open Food Facts数据库中提取的成分列表组成，并经过校正以确保每个成分被识别。该数据集的目的是评估在遵循Open Food Facts（OFF）指南的情况下，对产品成分列表进行拼写检查的效果。部分数据是通过OpenAI-GPT3.5-Turbo生成的，并使用Argilla工具进行检查以确保生成的校正符合拼写检查的指导原则。

提供机构：

openfoodfacts

原始信息汇总

数据集概述

基本信息

名称: Spellcheck Benchmark
版本: v5
语言: 包含多种语言，如法语、英语、罗马尼亚语、德语、西班牙语、意大利语、保加利亚语、荷兰语、希腊语、波兰语、葡萄牙语、斯洛伐克语等。
大小: 小于1000条记录
任务类别: 文本到文本生成
标签: 自然语言处理, 拼写检查
数据集大小: 243条记录

配置

配置名称: benchmark
- 数据文件: data/train-*
配置名称: default
- 数据文件:
  - 分割: train
    - 路径: data/train-*

数据集信息

特征:
- original: 字符串类型
- reference: 字符串类型
- is_truncated: 整数类型
- lang: 字符串类型
- data_origin: null类型
分割:
- 名称: train
  - 字节数: 90282
  - 示例数: 152
下载大小: 61445
数据集大小: 90282

数据集用途

用于评估拼写检查在纠正产品成分列表中的应用，确保每种成分被正确识别，遵循Open Food Facts指南。

5,000+

优质数据集

54 个

任务类型

进入经典数据集