embedding-data/PAQ_pairs

Name: embedding-data/PAQ_pairs
Creator: embedding-data
Published: 2022-08-02 02:58:28
License: 暂无描述

Hugging Face2022-08-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/embedding-data/PAQ_pairs

下载链接

链接失效反馈

官方服务：

资源简介：

PAQ_pairs数据集包含从维基百科获取的问题和答案对，主要用于训练句子转换模型（Sentence Transformers），适用于语义搜索和句子相似性任务。数据集的每个实例包含一对句子，第一个句子是问题，第二个句子是答案。数据集的使用示例和加载方法也在README中进行了说明。

提供机构：

embedding-data

原始信息汇总

数据集卡片 for "PAQ_pairs"

数据集描述

数据集摘要

Pairs questions and answers obtained from Wikipedia.

支持的任务和排行榜

Sentence Transformers 训练；适用于语义搜索和句子相似性。

语言

英语。

数据集结构

每个示例包含一对句子，格式为字典，键为 "set"，值为句子列表。第一个句子是问题，第二个是答案；因此，两个句子相似。

json {"set": [sentence_1, sentence_2]} {"set": [sentence_1, sentence_2]} ... {"set": [sentence_1, sentence_2]}

使用示例

安装 🤗 Datasets 库并从 Hub 加载数据集： python from datasets import load_dataset dataset = load_dataset("embedding-data/PAQ_pairs")

数据集加载为 DatasetDict，格式如下： python DatasetDict({ train: Dataset({ features: [set], num_rows: 64371441 }) })

查看示例 i： python dataset["train"][i]["set"]

数据集创建

数据来源

更多信息需要

个人和敏感信息

更多信息需要

使用数据的注意事项

附加信息

数据集策展人

更多信息需要

许可信息

PAQ QA-pairs 和元数据根据 CC-BY-SA 许可。其他数据根据附带的许可文件许可。

引用信息

@article{lewis2021paq, title={PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them}, author={Patrick Lewis and Yuxiang Wu and Linqing Liu and Pasquale Minervini and Heinrich Küttler and Aleksandra Piktus and Pontus Stenetorp and Sebastian Riedel}, year={2021}, eprint={2102.07033}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @patrick-s-h-lewis 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

embedding-data/PAQ_pairs

数据集卡片 for "PAQ_pairs"

数据集描述

数据集摘要

支持的任务和排行榜

语言

数据集结构

使用示例

数据集创建

数据来源

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献