five

mohit-raghavendra/self-instruct-wikipedia

收藏
Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mohit-raghavendra/self-instruct-wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由人类和大型语言模型(LLM)共同注释的Wikipedia搜索术语数据集。数据集包含了来自TriviaQA数据集的问题,以及可能在回答这些问题时需要在Wikipedia中搜索的术语。注释过程采用了自指导格式,其中一小部分注释由人类完成,并作为k-shot示例输入到Gemini-Pro模型中,以注释数据集的其余部分。

这是一个由人类和大型语言模型(LLM)共同注释的Wikipedia搜索术语数据集。数据集包含了来自TriviaQA数据集的问题,以及可能在回答这些问题时需要在Wikipedia中搜索的术语。注释过程采用了自指导格式,其中一小部分注释由人类完成,并作为k-shot示例输入到Gemini-Pro模型中,以注释数据集的其余部分。
提供机构:
mohit-raghavendra
原始信息汇总

数据集卡片

数据集详情

数据集描述

  • 数据集名称: 未明确提及,但基于内容可推测为与TriviaQA相关的搜索词标注数据集。
  • 数据来源: TriviaQA数据集的一个子样本,具体为TriviaQA数据集训练集的前1%。
  • 数据集大小: 116267字节
  • 样本数量: 1384个样本
  • 下载大小: 82027字节
  • 特征:
    • question: 问题,数据类型为字符串。
    • query_terms: 搜索词,数据类型为字符串。
  • 数据分割:
    • train: 训练集,包含1384个样本,大小为116267字节。

数据集创建

数据收集和处理

  • 数据子样本: 从TriviaQA数据集的训练集中提取的前1%样本。
  • 数据加载代码: python datasets.load_dataset("trivia_qa", "rc.nocontext", split="train[:1%]")

标注

  • 初始标注: 前30个样本由作者手动标注。

  • 模型标注: 使用Gemini-Pro模型,基于前30个样本作为k-shot示例(k=10),标注剩余数据集。

  • 系统消息: python SYSTEM_MESSAGE = f"""There exists a wikipedia summarizer that can return a summary for a topic. Your job is to act as an aid to a question answering tool. Whenever you are asked about a question related to general knowledge, instead of using your internal knowledge (which can be faulty or out of date), format a Wikipedia search query string that can help answer the question.

    Wikipedia Entries are usually about a simple entity or event, so keep the query short, and about the entity being asked about. Also, dont use your knowledge to ask about the answer. Instead form queries about the entity in the question. This will help you get the right wikipedia entries for questions when you dont know the answer """

使用场景

  • 应用: 用于微调一个代理,根据给定的问题,找到在Wikipedia中搜索的相关词条。

数据集作者

  • 作者: Mohit Raghavendra
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作