five

quora-competitions/quora

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/quora-competitions/quora
下载链接
链接失效反馈
官方服务:
资源简介:
Quora数据集由问题对组成,任务是判断这些问题是否是彼此的释义(即是否具有相同的含义)。数据集的语言为英语,大小为100K到1M之间,包含404,290个训练样本。数据集的字段包括问题ID、问题文本以及一个布尔值字段is_duplicate,用于指示问题对是否是重复的。
提供机构:
quora-competitions
原始信息汇总

数据集描述

  • 数据集名称: Quora Question Pairs
  • 数据集摘要: 该数据集由问题对组成,任务是判断问题是否为彼此的释义(具有相同含义)。
  • 支持的任务和排行榜: 未提供详细信息。
  • 语言: 英语

数据集结构

数据实例

默认

  • 下载的数据文件大小: 58.17 MB
  • 生成的数据集大小: 58.15 MB
  • 总磁盘使用量: 116.33 MB

训练集示例: json { "is_duplicate": true, "questions": { "id": [1, 2], "text": ["Is this a sample question?", "Is this an example question?"] } }

数据字段

所有拆分中的数据字段相同。

默认

  • questions: 包含以下字段的字典特征:
    • id: int32 特征。
    • text: string 特征。
  • is_duplicate: bool 特征。

数据拆分

名称 训练集数量
默认 404290

数据集创建

策划理由

未提供详细信息。

源数据

初始数据收集和规范化

未提供详细信息。

源语言生产者

未提供详细信息。

注释

注释过程

未提供详细信息。

注释者

未提供详细信息。

个人和敏感信息

未提供详细信息。

使用数据的注意事项

数据集的社会影响

未提供详细信息。

偏见的讨论

未提供详细信息。

其他已知限制

未提供详细信息。

附加信息

数据集策展人

未提供详细信息。

许可信息

未知许可。

引用信息

未知。

贡献

感谢 @thomwolf, @ghomasHudson, @lewtun 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作