five

embedding-data/PAQ_pairs

收藏
Hugging Face2022-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/embedding-data/PAQ_pairs
下载链接
链接失效反馈
官方服务:
资源简介:
PAQ_pairs数据集包含从维基百科获取的问题和答案对,主要用于训练句子转换模型(Sentence Transformers),适用于语义搜索和句子相似性任务。数据集的每个实例包含一对句子,第一个句子是问题,第二个句子是答案。数据集的使用示例和加载方法也在README中进行了说明。
提供机构:
embedding-data
原始信息汇总

数据集卡片 for "PAQ_pairs"

数据集描述

数据集摘要

Pairs questions and answers obtained from Wikipedia.

支持的任务和排行榜

语言

  • 英语。

数据集结构

每个示例包含一对句子,格式为字典,键为 "set",值为句子列表。第一个句子是问题,第二个是答案;因此,两个句子相似。

json {"set": [sentence_1, sentence_2]} {"set": [sentence_1, sentence_2]} ... {"set": [sentence_1, sentence_2]}

使用示例

安装 🤗 Datasets 库并从 Hub 加载数据集: python from datasets import load_dataset dataset = load_dataset("embedding-data/PAQ_pairs")

数据集加载为 DatasetDict,格式如下: python DatasetDict({ train: Dataset({ features: [set], num_rows: 64371441 }) })

查看示例 i: python dataset["train"][i]["set"]

数据集创建

数据来源

更多信息需要

个人和敏感信息

更多信息需要

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

PAQ QA-pairs 和元数据根据 CC-BY-SA 许可。其他数据根据附带的许可文件许可。

引用信息

@article{lewis2021paq, title={PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them}, author={Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich Küttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel}, year={2021}, eprint={2102.07033}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @patrick-s-h-lewis 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作