five

openfoodfacts/spellcheck-benchmark

收藏
Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/openfoodfacts/spellcheck-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
Spellcheck Benchmark数据集由152个从Open Food Facts数据库中提取的成分列表组成,并经过校正以确保每个成分被识别。该数据集的目的是评估在遵循Open Food Facts(OFF)指南的情况下,对产品成分列表进行拼写检查的效果。部分数据是通过OpenAI-GPT3.5-Turbo生成的,并使用Argilla工具进行检查以确保生成的校正符合拼写检查的指导原则。

Spellcheck Benchmark数据集由152个从Open Food Facts数据库中提取的成分列表组成,并经过校正以确保每个成分被识别。该数据集的目的是评估在遵循Open Food Facts(OFF)指南的情况下,对产品成分列表进行拼写检查的效果。部分数据是通过OpenAI-GPT3.5-Turbo生成的,并使用Argilla工具进行检查以确保生成的校正符合拼写检查的指导原则。
提供机构:
openfoodfacts
原始信息汇总

数据集概述

基本信息

  • 名称: Spellcheck Benchmark
  • 版本: v5
  • 语言: 包含多种语言,如法语、英语、罗马尼亚语、德语、西班牙语、意大利语、保加利亚语、荷兰语、希腊语、波兰语、葡萄牙语、斯洛伐克语等。
  • 大小: 小于1000条记录
  • 任务类别: 文本到文本生成
  • 标签: 自然语言处理, 拼写检查
  • 数据集大小: 243条记录

配置

  • 配置名称: benchmark
    • 数据文件: data/train-*
  • 配置名称: default
    • 数据文件:
      • 分割: train
        • 路径: data/train-*

数据集信息

  • 特征:
    • original: 字符串类型
    • reference: 字符串类型
    • is_truncated: 整数类型
    • lang: 字符串类型
    • data_origin: null类型
  • 分割:
    • 名称: train
      • 字节数: 90282
      • 示例数: 152
  • 下载大小: 61445
  • 数据集大小: 90282

数据集用途

用于评估拼写检查在纠正产品成分列表中的应用,确保每种成分被正确识别,遵循Open Food Facts指南。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作