embedding-data/PAQ_pairs
收藏数据集卡片 for "PAQ_pairs"
数据集描述
数据集摘要
Pairs questions and answers obtained from Wikipedia.
支持的任务和排行榜
- Sentence Transformers 训练;适用于语义搜索和句子相似性。
语言
- 英语。
数据集结构
每个示例包含一对句子,格式为字典,键为 "set",值为句子列表。第一个句子是问题,第二个是答案;因此,两个句子相似。
json {"set": [sentence_1, sentence_2]} {"set": [sentence_1, sentence_2]} ... {"set": [sentence_1, sentence_2]}
使用示例
安装 🤗 Datasets 库并从 Hub 加载数据集: python from datasets import load_dataset dataset = load_dataset("embedding-data/PAQ_pairs")
数据集加载为 DatasetDict,格式如下:
python
DatasetDict({
train: Dataset({
features: [set],
num_rows: 64371441
})
})
查看示例 i:
python
dataset["train"][i]["set"]
数据集创建
数据来源
个人和敏感信息
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集策展人
许可信息
PAQ QA-pairs 和元数据根据 CC-BY-SA 许可。其他数据根据附带的许可文件许可。
引用信息
@article{lewis2021paq, title={PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them}, author={Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich Küttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel}, year={2021}, eprint={2102.07033}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @patrick-s-h-lewis 添加此数据集。



