five

monsoon-nlp/relive-qa

收藏
Hugging Face2024-07-06 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/monsoon-nlp/relive-qa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集重新托管了RealtimeQA的问题,讨论了如何使用半自动格式继续发布文章和问答。建议使用en.WikiNews.org作为数据源。数据集包含使用OpenAI的GPT-4生成问题和答案的脚本。数据集的问题包括提示需要审查以避免答案选择过于明显或具体,问题和答案应基于文章中的新信息,而不是一般知识等。

This dataset re-hosts questions from RealtimeQA while discussing ways to continue posting articles and Q&A using a semi-automated format. It suggests using en.WikiNews.org as the data source. The dataset includes scripts for generating questions and answers using OpenAIs GPT-4. Issues with the dataset include the need for prompt review to avoid making answer choices that are obvious or more specific than alternative choices, and ensuring that questions and answers are based on new information in the article rather than general knowledge.
提供机构:
monsoon-nlp
原始信息汇总

数据集概述

名称: relive-qa

来源: 重新托管自RealtimeQA的问题。

目的: 讨论并实施一种半自动格式,用于发布文章和问答。

数据收集方法:

  • scrape.py: 从最新WikiNews文章加载纯文本。
  • scrape_with_openai.py: 将抓取的文本传递给OpenAI的GPT-4o以生成每篇文章的问题和答案。
  • scrape_morerecent_with_openai.py: 抓取WikiNews尚未发布的近期文章,并使用OpenAI的GPT-4o进行问答。

语言: 英语 (en)

任务类别: 问答 (question-answering)

许可证: MIT

标签: 实时 (realtime), 新闻 (news)

数据集问题与挑战

  • 需要审查提示,以避免产生显而易见或比替代选择更具体的答案选项。
  • 问题和答案应基于文章中的新信息,而非一般知识。
  • 文章的链接和标题可能会泄露答案,而不是依赖阅读理解。
  • WikiNews文章可能涉及特定或本地故事,除非LLM阅读特定文章,否则可能不了解相关事实。

数据集引用

@inproceedings{ kasai2023realtime, title={RealTime {QA}: Whats the Answer Right Now?}, author={Jungo Kasai and Keisuke Sakaguchi and yoichi takahashi and Ronan Le Bras and Akari Asai and Xinyan Velocity Yu and Dragomir Radev and Noah A. Smith and Yejin Choi and Kentaro Inui}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023}, eprint={2207.13332}, url={https://openreview.net/forum?id=HfKOIPCvsv} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作