scholarly-shadows-syndicate/hotpotqa_with_qa_gpt35
收藏HotpotQA Dataset with GPT-3.5 Generated Questions
概述
本仓库托管了一个增强版的HotpotQA数据集,其中每个支持句都通过使用OpenAI的GPT-3.5 turbo API生成了问题。目的是为每个条目提供更丰富的上下文,可能有利于各种NLP任务,如问答和上下文理解。
数据集格式
数据集中的每个条目格式如下:
json { "answer": "这是答案", "context": { "sentences": [["句子1"], ["句子21", "句子22"]], "title": ["标题1", "标题2"], "questions": [["问题1"], ["问题21", "问题22"]], // 新增 "paraphrased_questions": [["改写问题1"], ["改写问题21", "改写问题22"]], // 新增 }, "id": "000001", "level": "中等", "question": "答案是什么?", "supporting_facts": { "sent_id": [0, 1, 3], "title": ["段落标题1", "段落标题2", "段落标题3"] }, "type": "比较" }
重要通知
1. 训练集不可用
目前,增强数据集的训练集仍在计算中,不可用。我们正在积极处理此事,并将在准备就绪后更新仓库。
2. 商业使用注意事项
使用此数据集的用户应注意,由OpenAI的GPT-3.5 turbo API生成的问题可能不适用于商业用途,根据OpenAI的服务条款。我们建议谨慎行事,并在任何商业部署前审查OpenAI的政策。
3. 原始数据集引用
此增强数据集基于HotpotQA数据集。使用此增强数据集的用户还应引用原始的HotpotQA数据集。有关原始数据集的更多信息,请访问HotpotQA Dataset on Hugging Face。



