five

emirhanboge/qqp_llama1b_modified

收藏
Hugging Face2025-03-05 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/emirhanboge/qqp_llama1b_modified
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个针对重复问题分类的修改版Quora问题对数据集。数据集包括两个问题文本和一个表示问题是否重复的标签。标签已经从文本形式转换为整数形式,问题列的名称也已更改,并且每个示例都添加了任务前缀。数据集经过LLaMA-1B分词器处理,并限制了序列的最大长度为128个token。数据集分为训练集、验证集和测试集。

This is a modified version of the Quora Question Pairs (QQP) dataset for duplicate question classification. The dataset includes two question texts and a label indicating whether the questions are duplicates. The labels have been converted from text to integers, the names of the question columns have been changed, and a task prefix has been added to each example. The dataset has been tokenized using the LLaMA-1B tokenizer and the maximum sequence length is set to 128 tokens. The dataset is split into training, validation, and test sets.
提供机构:
emirhanboge
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作