five

sonasimon/LoFTI

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sonasimon/LoFTI
下载链接
链接失效反馈
官方服务:
资源简介:
LoFTI是一个基准数据集,用于评估大语言模型在印度语境下的本地化和事实文本转移能力。数据集包含来自全球不同地区的源位置和印度境内的目标位置的事实陈述,涉及多种类别的实体。每个陈述集都附带一个或多个可以在任何位置回答的常见问题。数据集的结构包括区域、类别、参考位置、参考实体、参考文本、目标位置、真实目标实体、真实目标文本、超本地化评分、高基数性和常见问题等字段。数据集的创建过程涉及人工注释和自动化工具的结合,确保了数据的正确性和多样性。数据集的局限性包括仅适用于印度本地化、仅支持英语以及高基数性可能导致的评估不精确性。

LoFTI is a benchmark dataset used to evaluate the localization and factual text transfer capabilities of large language models (LLMs). It consists of factual statements about entities in source and target locations, with source locations spread across the globe and target locations all within India at varying levels of hyperlocality. The entities span a wide variety of categories such as food, sports, nature, etc. Each set of parallel statements is accompanied by common questions that can be answered at any location. The dataset creation involved human annotators to ensure the quality and correctness of the data.
提供机构:
sonasimon
原始信息汇总

数据集概述

数据集名称

  • LoFTI

别名

  • sonasimon/LoFTI

描述

LoFTI是一个用于评估大型语言模型(LLM)本地化和事实文本传输能力的基准数据集。该数据集包含关于源和目标位置实体的事实陈述;源位置遍布全球,而目标位置均位于印度,具有不同程度的超本地化(国家、州、城市)。实体涵盖广泛的类别。

创建者

关键词

  • text-generation
  • English
  • apache-2.0
  • 1K - 10K
  • json
  • Text
  • Datasets
  • pandas
  • Croissant
  • arxiv:2407.11833
  • 🇺🇸 Region: US

许可证

URL

数据集结构

分布

记录集

  • 类型: cr:RecordSet
  • ID: default
  • 名称: default
  • 描述: sonasimon/LoFTI - default 子集
    • 1 个跳过的列: common_questions_mixtral
字段
  • ID: default/id

    • 名称: default/id
    • 描述: HF Mirror Parquet 文件中的列 id。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 id
  • ID: default/region

    • 名称: default/region
    • 描述: HF Mirror Parquet 文件中的列 region。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 region
  • ID: default/category

    • 名称: default/category
    • 描述: HF Mirror Parquet 文件中的列 category。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 category
  • ID: default/reference_location

    • 名称: default/reference_location
    • 描述: HF Mirror Parquet 文件中的列 reference_location。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 reference_location
  • ID: default/reference_entity

    • 名称: default/reference_entity
    • 描述: HF Mirror Parquet 文件中的列 reference_entity。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 reference_entity
  • ID: default/target_location

    • 名称: default/target_location
    • 描述: HF Mirror Parquet 文件中的列 target_location。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 target_location
  • ID: default/true_target_entity

    • 名称: default/true_target_entity
    • 描述: HF Mirror Parquet 文件中的列 true_target_entity。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 true_target_entity
  • ID: default/high_cardinality

    • 名称: default/high_cardinality
    • 描述: HF Mirror Parquet 文件中的列 high_cardinality。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 high_cardinality
  • ID: default/hyperlocal_score

    • 名称: default/hyperlocal_score
    • 描述: HF Mirror Parquet 文件中的列 hyperlocal_score。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 hyperlocal_score
  • ID: default/reference_sentence

    • 名称: default/reference_sentence
    • 描述: HF Mirror Parquet 文件中的列 reference_sentence。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 reference_sentence
  • ID: default/true_target_sentence

    • 名称: default/true_target_sentence
    • 描述: HF Mirror Parquet 文件中的列 true_target_sentence。
    • 数据类型: sc:Text
    • 来源: parquet-files-for-config-default, 提取列 true_target_sentence
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作