quora-competitions/quora
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/quora-competitions/quora
下载链接
链接失效反馈官方服务:
资源简介:
Quora数据集由问题对组成,任务是判断这些问题是否是彼此的释义(即是否具有相同的含义)。数据集的语言为英语,大小为100K到1M之间,包含404,290个训练样本。数据集的字段包括问题ID、问题文本以及一个布尔值字段is_duplicate,用于指示问题对是否是重复的。
提供机构:
quora-competitions
原始信息汇总
数据集描述
- 数据集名称: Quora Question Pairs
- 数据集摘要: 该数据集由问题对组成,任务是判断问题是否为彼此的释义(具有相同含义)。
- 支持的任务和排行榜: 未提供详细信息。
- 语言: 英语
数据集结构
数据实例
默认
- 下载的数据文件大小: 58.17 MB
- 生成的数据集大小: 58.15 MB
- 总磁盘使用量: 116.33 MB
训练集示例: json { "is_duplicate": true, "questions": { "id": [1, 2], "text": ["Is this a sample question?", "Is this an example question?"] } }
数据字段
所有拆分中的数据字段相同。
默认
questions: 包含以下字段的字典特征:id:int32特征。text:string特征。
is_duplicate:bool特征。
数据拆分
| 名称 | 训练集数量 |
|---|---|
| 默认 | 404290 |
数据集创建
策划理由
未提供详细信息。
源数据
初始数据收集和规范化
未提供详细信息。
源语言生产者
未提供详细信息。
注释
注释过程
未提供详细信息。
注释者
未提供详细信息。
个人和敏感信息
未提供详细信息。
使用数据的注意事项
数据集的社会影响
未提供详细信息。
偏见的讨论
未提供详细信息。
其他已知限制
未提供详细信息。
附加信息
数据集策展人
未提供详细信息。
许可信息
未知许可。
引用信息
未知。
贡献
感谢 @thomwolf, @ghomasHudson, @lewtun 添加此数据集。



