scholarly-shadows-syndicate/2wikimultihopqa_with_q_gpt35
收藏2WikiMultihopQA Dataset with GPT-3.5 Generated Questions
概述
本仓库托管了2WikiMultihopQA数据集的增强版本,其中每个支持句都补充了使用OpenAI的GPT-3.5 turbo API生成的问题。目的是为每个条目提供更丰富的上下文,可能有利于各种NLP任务,如问答和上下文理解。
数据集格式
数据集中的每个条目格式如下:
json { "_id": "example_id", "type": "sample_type", "question": "Sample question text?", "context": { "title": ["Title 1", "Title 2"], "content": [ [["Content 1 for Title 1","Content 2 for Title 1"]], [["Content 1 for Title 2"]] ], "questions": [ // 新增 [["Question 1 for Title 1"],["Question 2 for Title 1"]], [["Question 1 for Title 2"]] ], "paraphrased_questions": [ // 新增 [["Paraphrased Question 1 for Title 1"],["Paraphrased Question 2 for Title 1"]], [["Paraphrased Question 1 for Title 2"]] ] }, "supporting_facts": { "title": ["Title 1", "Title 2"], "sent_id": [0, 0] }, "evidences": { "fact": ["Fact 1", "Fact 2"], "relation": ["relation_1", "relation_2"], "entity": ["Entity 1", "Entity 2"] }, "answer": "sample_answer" }
重要通知
1. 训练集不可用
目前,该增强数据集的训练集仍在计算中,不可用。我们正在积极处理,一旦准备就绪,将更新仓库。
2. 商业使用注意事项
用户应注意,由OpenAI的GPT-3.5 turbo API生成的问题可能不适用于商业用途,根据OpenAI的服务条款。我们建议谨慎行事,并在任何商业部署前审查OpenAI的政策。
3. 原始数据集引用
该增强数据集基于2wikimultihop数据集。使用该增强数据集的用户也应引用原始的2wikimultihop数据集。有关原始数据集的更多信息,请访问2wikimultihop Dataset on Github。




