five

wjbmattingly/gliner-bird-diet-synthetic

收藏
Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/wjbmattingly/gliner-bird-diet-synthetic
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个专注于鸟类学数据,特别是鸟类饮食的NER数据集。数据是完全合成的,不应视为事实。该数据集包含约2k条描述,使用Qwen2-7B-Instruct模型创建。数据集包括三个JSONL文件,分别用于训练、评估和测试。每个文件中的每一行都是一个包含两个键的字典:ner和tokenized_text。ner键映射到六个类别的潜在实体列表,包括植物性食物、动物性食物、群体行为、群体物种、进食时间和进食位置。数据集用于微调GLiNER模型,基础模型是NuNerZero Span。

这是一个专注于鸟类学数据,特别是鸟类饮食的NER数据集。数据是完全合成的,不应视为事实。该数据集包含约2k条描述,使用Qwen2-7B-Instruct模型创建。数据集包括三个JSONL文件,分别用于训练、评估和测试。每个文件中的每一行都是一个包含两个键的字典:ner和tokenized_text。ner键映射到六个类别的潜在实体列表,包括植物性食物、动物性食物、群体行为、群体物种、进食时间和进食位置。数据集用于微调GLiNER模型,基础模型是NuNerZero Span。
提供机构:
wjbmattingly
原始信息汇总

GLiNER Bird Diet Synthetic Dataset

概述

  • 任务类别: 命名实体识别 (NER)
  • 语言: 英语
  • 标签: 科学, 鸟类, 鸟类学, NER
  • 数据规模: 1K<n<10K

数据集描述

  • 文件名: train.jsonl, eval.jsonl, test.jsonl
  • 字段:
    • ner: 从鸟类饮食描述中提取的实体,使用GLiNER模型。
    • tokenized_text: 详细描述鸟类饮食习惯和模式的文本内容,使用qwew/qwen2-7b-instruct模型合成。

NER标签定义

  • plant food: 识别文本中提到的特定植物性食物。
  • animal food: 分类提到动物性食物的提及。
  • group behavior: 描述与进食相关的任何社会或群体行为。
  • group species: 记录参与与鸟类进食行为的其他物种。
  • eating time: 指定进食通常发生的时间。
  • eating location: 确定进食活动的地理或环境位置。

示例标注

json { "tokenized_text": ["Surviving", "in", "the", "vast", "grasslands", "of", "the", "Serengeti", ",", "the", "Lappet", "-", "faced", "Vulture", "primarily", "consumes", "carrion", ",", "focusing", "on", "remains", "of", "wildebeest", "and", "zebra", ".", "It", "occasionally", "forms", "a", "group", "with", "vultures", "of", "various", "species", "to", "efficiently", "locate", "and", "guard", "carcasses", ".", "The", "vulture", "is", "an", "active", "hunter", "during", "the", "daytime", ",", "specifically", "targeting", "amphibians", "and", "small", "rodents", ".", "Its", "feeding", "habits", "are", "predominantly", "observed", "in", "the", "open", "plains", "of", "Africa", "."], "ner": [[51,51,"EATING TIME"],[55,55,"ANIMAL FOOD"],[57,58,"ANIMAL FOOD"],[68,71,"EATING LOCATION"]] }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作