five

sentence-transformers/dureader

收藏
Hugging Face2024-06-18 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/dureader
下载链接
链接失效反馈
官方服务:
资源简介:
DuReader数据集用于训练BGE-M3模型,包含三个子集:triplet、triplet-15和triplet-all。triplet子集包含anchor、positive和negative三个字段,收集策略是从DuReader目录中读取jsonl文件并仅取第一个negative。triplet-15子集包含anchor、positive和15个negative字段,收集策略是读取所有具有15个negative的样本。triplet-all子集包含anchor、positive和negative三个字段,收集策略是读取每个negative并生成单独的样本。所有子集均未进行去重处理。

DuReader数据集用于训练BGE-M3模型,包含三个子集:triplet、triplet-15和triplet-all。triplet子集包含anchor、positive和negative三个字段,收集策略是从DuReader目录中读取jsonl文件并仅取第一个negative。triplet-15子集包含anchor、positive和15个negative字段,收集策略是读取所有具有15个negative的样本。triplet-all子集包含anchor、positive和negative三个字段,收集策略是读取每个negative并生成单独的样本。所有子集均未进行去重处理。
提供机构:
sentence-transformers
原始信息汇总

DuReader 数据集概述

数据集基本信息

  • 语言: 中文
  • 多语言性: 单语种
  • 数据集大小: 1M < n < 10M
  • 任务类别:
    • 特征提取
    • 句子相似度
  • 数据集名称: DuReader
  • 标签: sentence-transformers

数据集配置

配置 triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 151113618
      • 样本数: 80416
  • 下载大小: 104873213
  • 数据集大小: 151113618

配置 triplet-15

  • 特征:
    • anchor: string
    • positive: string
    • negative_1negative_15: string
  • 分割:
    • train:
      • 字节数: 2925751192
      • 样本数: 205182
  • 下载大小: 878571176
  • 数据集大小: 2925751192

配置 triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 5756777082
      • 样本数: 3077730
  • 下载大小: 878090368
  • 数据集大小: 5756777082

数据集子集

triplet 子集

  • : "anchor", "positive", "negative"

  • 列类型: str, str, str

  • 示例: python { anchor: 冰血暴好看吗, positive: 有没有人看过?今天听说冰血暴特别好看,豆瓣上评分也很高。还有大家最近都在看什么剧,最近看完了几部以前很经典的剧,都是全部完结的,现在的新剧很多,大家推荐一下第 一季,相当精彩,久久不能平息!百度移动游戏玩家均可认证(限百度账号),去领取活动截止:2100-01-01等权利的游戏第六季,等的很辛苦!无耻之徒,摩登家庭,行尸走肉,绝命毒师。有网盘链接吗 --害怕的时候往床下看看, 你不是一个人 (´⊙ω⊙`)怎奈黎明不懂哀伤, 双人成单。谁能忘记那段时光, 离别容易再见难。登录百度帐号贴吧页面意见反馈 违规贴吧举报反馈通道 贴吧垃圾信息处理公示, negative: 情怀游戏啊,大爱有没有? 跟看了动漫13年了感觉不好玩割草游戏 以前玩三国无双都要玩吐了不好玩,跟2代一样没什么变化我啊 最近把黑暗之魂2 和 侠客通关 一直在等玩的是情怀名副其实、也就卖点情怀比较粉丝向,OP粉比较喜欢,比如我是挺期待的我玩单机都开修改器。。到时候除了就开无敌,看着多佛朗明哥一直在放技能,你就是打不死我,我就慢慢普通攻击磨死你,还有多爽割草啊不喜欢自带中文吗? 大良心?我一直对无双类游戏情有独钟,而且也挺喜欢海贼王的,所以没什么理由不等这个。粉丝向游戏。。。大爱你还等pc版?我想玩究极风暴4 }

  • 收集策略: 读取 DuReader 目录中的 jsonl 文件,并仅取第一个 negative。

  • 去重: 否

triplet-15 子集

  • : "anchor", "positive", "negative_1" 至 "negative_15"

  • 列类型: str, str, str (15 个)

  • 示例: python { anchor: 微信分享链接打开app, positive: iOS里,把一个页面链接分享给微信好友(会话),好友在微信里打开这个链接,也就是打开了一个网页,点击网页里的某个地方后(比如网页中“打开xx应用程序”的按钮),代码里怎么设置可以跳回到第三方app?知乎的ios客户端就有这种功能,在微信里分享链接后,点开链接,再点网页中的某处,就可以打开知乎客户端显示全部微信中不能用自定义url的方式,微信提供了打开第三方应用的接口:launch3rdApp谢。一般用自带浏览器可以调用起app没问题。微信里面能调出app的,是和腾讯有合作的应用,其他会被过滤掉。有一个公司的产品,叫 魔窗,免费可以接入的, negative_1: 微信公众号,右上角分享,底部tab隐藏隐藏所有页面的分享功能,写在index.html即可<script>// var vConsole = new VConsole();document.addEventListener("WeixinJSBridgeReady",functiononBridgeReady(){// 通过下面这个API隐藏右上角按钮WeixinJSBridge.call("hideOptionMenu"); } );</script>复制代码显示分享, negative_2: 1、打开手机微信,进入通讯录,搜索“文件传输助手”并添加。 2、电脑访问微信网页版,利用手机微信“扫一扫”功能即可登录微信网页端。或者下载微信PC版程序登录。 3、通过手机微信“文件传输助手”发送聊天文字、图片、网页链接等内容,即可登录电脑端微信查看相关内容。公众号中的文章,点击文章右上角,选择发送给朋友“文件传输助手”即可。 4、也可以通过电脑端微信将文字、图片、网页链接等内容发送出去,在手机微信上查看。, negative_3: 相信有模拟微信页面请求的测试都有看到过这个页面,简单点说就是爬虫爬微信页面,进行回放的时候会出现这个页面。大概在1年前,专门安排了一个人去解决这个技术问题,遗憾的是当时没有找到解决方案,接下来所有微信端的接口测试和性能测试都无法进行,今天和大家分享下我们的解决方案,希望大家可以绕过微信的坑 。我这里以JMeter来举例,我们可以通过在JMeter上开启代理,手机上设置代理来录制微信端的请求,以下为在微信端的业务对应生成的脚本:录制完成后,我们进行回放,你会发现在查看结果树中,会重定向到微信授权,接着 就开始提示:请在微信客户端打开链接。这里我们看一下请在微信客户端打开链接页面对应的代码:, negative_4: 1 是微信朋友圈设置权限问题(朋友圈编辑——谁可以看权限) 分享时选择了“公开”再发送,这样所有人 都可以看到你 的朋友圈,如图 2 是存在诱导关注,违反微信外部链接内容管理条例经腾讯自检机制发现后永久封禁了该 1)检测方法: 可以通过更换公众号 不更换链接的方法进行检测 若更换公众号不更换的链接的情况下,朋友可以看到分享内容,则公众号受限。 2)解决方法 活动内容不能出现诱导用户转发,分享拉票,关注充值等敏感字眼。可将转发 分享 拉票等敏感词调整为快带上的小伙伴来为您加油吧……..诸如此类正规语段,公众号受限的情况下可以通过邮件进行申诉,申诉方法如下 邮件标题格式:【朋友圈拦截咨询】“申诉人或企业” + “页面主题”; 邮件正文:请附上被拦截链接以及情况说明。发送moment@tencent.com。 如果你分享的内容没有问题,一般会直接解封;如果你的分享的内容有问题,例如诱导分享等,微信官方也会详细告知,修改后再次发送邮件申请就可以了,以下是几种违规实例的截图 3 是公众号分享链接被封 1 )检测方法: 域名被封会出现内容不出现 只出现链接的现象,或者点击链接会出现域名被封的字样,这样就可以确定是公众号分享域名被封了 2)解决方法: 域名被封只能通过更换公众号分享域名来解决, negative_5: 一、先说整体的解决方案1、通过搜狗进 行公众号文章的采集,这样获取到的文章URL是一个带时间戳的临时链接。1)一个微信客户端:下载一个安卓模拟器,在这个模拟器上安装一个微信app。2)一个微信个人号:为了采集内容不仅需要微信客户端,还要有一个微信个人号专门用于发送临时链接。在2016年年初的时候微信公众号和微信文章开始使用https链接。并且Anyproxy可以通过修改rule向服务器发送请求。下面开始介绍安装与配置过程。PS:使用Anyproxy可以直接获取微信公 众号的全部文章(永久链接),包括点赞数,阅读数之类的信息。这样的话可以不用使用搜狗。不过这里会有些问题,微信会封你在做这个事情的微信个人号,所以我采取的是使用搜狗爬文章(急),再利用Anyproxy在临时链接有效时间内更新为永久链接。, negative_6: 问题补充:网友答案在网盘里找个文件,点出分享按钮。如图:在打开的页面中点击,创建公开链接。如图:我来回答, negative_7: 1、打开微信,点击通讯录。 2、公众号,进入公众号。 3、选择右上角的三个点,选择要下载的视频进入,三个点,复制链接。 4、打开qq浏览器,在搜索框中将链接粘贴上去,进入,点击视频进行播放。 5、全屏,下载,普通下载,完成后。 6、打开相册,视频,即可 看到刚下载好的视频。, negative_8: 1、打开百度网盘,找到需要与好友分享的文件。 2、点击右边的小圆点,点击下方的“分享”,选择有效期设置。 3、点击“复制链接”,然后直接将链接粘贴给好友即可。, negative_9: 首先,在微信平台上搜索独为信达,关注该观众号,关注了之后,左下角就会出现“获客宝”然后获客宝登录,授权下,您就可以进去了。进来之后你会看到有四种发布模式,分享图文、分享链接、分享文章、分享活动, 我们是要做微信活动报名链接的,我们选择分享活动。进入创建活动主页面,按照提示,填写活动标题、设置活动浏览量、活动购买/报名的数量、活动结束时间、联系电话、活动地址,背景音乐等,内容全部填写完之后,点击下一步。下一步就到了新建分享页面,这个的分享标题、分享描述,即显示在微信朋友圈里面的标题描述,在这里你可以设置这个活动是否是热文、是否展示你的名片、搜集客户的联系方式、是否使用红包拓客方式等。, negative_10: 9.白名单IP地址列表:服务器的真实ip,只有在此ip下,才能使用相关接口三、 平台对接xa0 xa0(第三方接口申请完成后进行此操作)1、 进入总后台xa0xa0“站点管理” => “站点设置”=> “公众号授权”如果“站点设置”中没有“公众号授权”选项,请查看文档底部说明2、填写接口信息【主站】************************************【如果是加盟版本的代理商自己的后台也是要配置的】**********************资 料对应 微信开放平台(“管理中心” => “公众号第三方平台”)填写Appid、appSecretxa0xa0等信息, negative_11: 一、微信朋友能gif图片的原因:1,用户需求角大部分用户没有发gif的需求。 一方面gif格图片难以制作,大部分用户还不需要用到这种表现形式。 另一方面发布动态影像的需求可以转移到朋友圈的”小视频”功能。 2,用户体验角度。 gif图片若不限制帧数,很占内存,导致微信运行缓慢、卡顿。 3,功能轻重角度。 可以看到朋友圈仅仅是微信的一个应用模块,是可以选择加装或卸载的。 因此,朋友圈不宜过重。 二、微信(英文名:wechat)是腾讯公司于2011年1月21日推出的一个为智能终端提供即时通讯服务的免费应用程序,微信支持跨通信运营商、跨操作系统平台通过网络快速发送免费(需消耗少量网络流量)语音短信、视频、图片和文字,同时,也可以使用通过共享流媒体内容的资料和基于位置的社交插件“摇一摇”、“漂流瓶”、“朋友圈”、”公众平台“ 、”语音记事本“等服务插件。 说说怎么分享 我也是受害者,已经报警,但还没动静。 微博名字:智商税已交,已发微博曝光,请求大家顶一下,拜托 什么叫共享经济 共享经济的本质其实是一句话,弱化“拥有权”,强调“使用 权”。 无论是资源还是技能,对于拥有者而言因为私有化而没有得到充分利用,如今得到更广阔的价值。 但你说这个概念是新创造吗, negative_12: 微信内置浏览器不支持下载app(apk/ipa)软件的解决方法很多朋友 的APP推广链接需要在微信中进行的网页宣传、传播、下载等等,但是各位朋友一定发现了微信中是屏蔽掉了APP的下载链接的。主要是微信内置浏览器不支持下载app(安卓/苹果)。但是微信最为一个最大的社交平台,为了 自身的利益,屏蔽掉了所有APK的下载链接。我们要怎么解决这个问题呢?变通方法:如此一来我们就解决了域名被微信拦截而无法打开的问题了,那么接下来就可以在微信内大量的分享链接或二维码来进行宣传引流。不仅提高了用户体验,也能够极大地提高自己的APP在微信中的推广转化率,充分利用微信的用户群体来达到我们的期望, negative_13: 1、在手机设置菜单中点击【应用】选项。 2、点击进入【应用分身】。 3、打开【微信】右侧的开关。 4、在桌面上分别打开两个微信app并登录微信号即可。, negative_14: 操作方法 1. 先登录微信公众号账户,然后再点击新建素材,接着点击右侧的新建图文素材,这样就可以在里面进行编辑了,也能 让自己在文章中添加超级链接了。 2. 接着在文章里面输入文字,接着选中文字,然后再点击右上角的超链接,这时候就可以直接往文字中添加链接了。 3. 为文字输入网址,选中好文字以后就可以再网址中输入网址了,自己想添加什么链接直接在这里添加就可以了,这样能点击文字后就跳转到链接网页了。 4. 当然如果自己添加的链接是想要从别人的文章中获得的话,直接点击旁边的查找文章,然后就可以直接在这里看到一些文章,自己可以 直接选择了,这样会更方便一些的。, negative_15: 步骤1:登录公众号后台,按以下图片两步走。 步骤2:输入“智未来page”-“下一步” 注:这里的“下一步”的按钮可能会被遮住,可以把框框拉上来点就能看见了哦。 步骤3:打开谷歌或360浏览器 步骤4:进入智未来主页,并注册登录使用。 步骤5:关联公众号并“立即创建页面” 步骤6:选择所需模板-“立即使用” 步骤7:编辑模板,并点完成 步骤8:复制小程序链接 步骤9:回到公众号后台,在自定义菜单中编辑子菜单-“选择菜单”-“跳转小程序”-“选择小程序”-选择“智未来page小程序”-“完成”-选择“备用链接”-“保存并发布” }

  • 收集策略: 读取 DuReader 目录中的 jsonl 文件,并取所有包含 15 个 negatives 的样本。

  • 去重: 否

triplet-all 子集

  • : "anchor", "positive", "negative"
  • 列类型: str, str, str
  • 示例: python { anchor: 冰血暴好看吗, positive: 有没有人看过?今天听说冰血暴特别好看,豆瓣上评分也很高。还有大家最近都在看什么剧,最近看完了几部以前很经典的剧,都是全部完结的,现在的新剧很多,大家推荐一下第 一季,相当精彩,久久不能平息!百度移动游戏玩家均可认证(限百度账号),去领取活动截止:2100-01-01等权利的游戏第六季,等的很辛苦!无耻之徒,摩登家庭,行尸走肉,绝命毒师。有网盘链接吗 --害怕的时候往床下看看, 你不是一个人 (´⊙ω⊙`)怎奈黎明不懂哀伤, 双人成单。谁能忘记那段时光, 离别容易再见难。登录百度帐号贴吧页面意见反馈 违规贴吧举报反馈通道 贴吧垃圾信息处理公示, negative: 情怀游戏啊,大爱有没有? 跟看了动漫13年了感觉不好玩割草游戏 以前玩三国无双都要玩吐了不好玩,跟2代一样没什么变化我啊 最近把黑暗之魂2 和 侠客通关 一直在等玩的是情怀名副其实、也就卖点情怀比较粉丝向,OP粉比较喜欢,比如我是挺期待的我玩单机都开修改器。。到时候除了就开无敌,看着多佛朗明哥一直在放技能,你就是打不死我,我就慢慢普通攻击磨死你,还有多爽割草啊不喜欢自带中文吗? 大良心?我一直对无双类游戏情有独钟,而且也挺喜欢海
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量的中文语义相似度数据集对于模型训练至关重要。DuReader数据集的构建源于对原始DuReader语料的深度重构,旨在服务于句子嵌入模型的优化。该数据集通过解析Shitao/bge-m3-data仓库中的特定JSONL文件,精心提取出锚点句、正例句与负例句的三元组结构。构建过程涵盖了三种不同配置:基础三元组仅选取首个负例;扩展版本则整合了多达十五个负例以增强对比学习;而完整版本则将每个负例独立成样本,从而大幅扩充了训练数据的规模与多样性。
特点
作为专注于中文语义相似度任务的数据集,DuReader展现出鲜明的技术特色。其核心特征在于提供了多层次的三元组结构,能够灵活支持从基础对比学习到复杂负例采样的多种训练范式。数据集规模庞大,涵盖百万至千万级别的样本量,确保了模型训练的充分性与鲁棒性。所有文本内容均为中文,语言风格贴近真实网络语境,涵盖了丰富的领域与话题,为模型捕捉细微语义差异提供了扎实的语料基础。这种结构化的设计使得数据集特别适配于像BGE-M3这类先进嵌入模型的微调与评估。
使用方法
在具体应用层面,DuReader数据集为研究者提供了便捷高效的接入途径。用户可通过HuggingFace数据集库直接加载指定的子集配置,例如'triplet'、'triplet-15'或'triplet-all',每个子集均以标准的锚点-正例-负例格式呈现。数据集可直接融入现有的PyTorch或TensorFlow训练流程,用于训练句子编码器或进行语义相似度模型的微调。其丰富的负例设计尤其适合采用对比损失函数或难负例挖掘策略,以提升模型区分相似与不相似句子的能力。通过这种即插即用的方式,该数据集能够显著加速中文语义表示学习的研究与开发进程。
背景与挑战
背景概述
在自然语言处理领域,语义相似度计算是信息检索、问答系统等任务的核心基础。DuReader数据集作为中文文本理解的重要资源,由百度公司于2018年推出,旨在解决机器阅读理解与文本匹配的难题。该数据集基于百度搜索和百度知道等真实用户生成内容构建,聚焦于开放域问答和文档级语义匹配,为中文预训练模型提供了大规模、高质量的监督信号。其影响力深远,不仅推动了BGE-M3等先进嵌入模型的发展,也为中文自然语言处理社区在语义表示学习方面奠定了坚实的数据基础。
当前挑战
DuReader数据集致力于解决中文文本语义相似度与匹配的复杂问题,其核心挑战在于如何精准建模开放域中多样且细粒度的语义关联。具体而言,数据构建过程中面临真实用户查询与文档间语义对齐的困难,需处理噪声大、表述多样化的中文文本,并确保正负样本在语义上的区分度。此外,数据规模庞大且来源异构,在去重、质量控制和标注一致性方面存在显著挑战,这些因素共同影响了模型训练的稳定性和泛化能力。
常用场景
经典使用场景
在自然语言处理领域,DuReader数据集以其独特的三元组结构,为句子嵌入模型的训练提供了经典范例。该数据集通过锚点、正例和负例的精心构建,使得模型能够学习到文本之间的语义相似性与差异性。在信息检索和语义匹配任务中,研究人员利用这些三元组进行对比学习,优化模型对中文文本的表示能力,从而提升下游任务的性能表现。
衍生相关工作
围绕DuReader数据集,衍生了一系列重要的研究工作。最具代表性的是BGE-M3模型,该模型利用数据集的对比学习框架,实现了多语言、多粒度的文本嵌入。此外,许多研究在此基础上探索了难负例挖掘、动态负采样等策略,进一步优化了训练效果。这些工作不仅推动了句子嵌入技术的发展,也为后续的大规模预训练模型提供了宝贵的训练数据和评估基准。
数据集最近研究
最新研究方向
在自然语言处理领域,中文文本表示学习正迎来深度变革,sentence-transformers/dureader数据集作为大规模中文三元组语料库,为句子嵌入模型的训练提供了丰富资源。该数据集源自DuReader的重新格式化,专门用于训练BGE-M3等先进模型,其包含的多个子集如triplet-15,通过提供多达15个负样本,显著增强了对比学习的难度与多样性。前沿研究聚焦于利用此类高质量三元组数据,探索多粒度语义匹配、跨领域迁移学习以及少样本场景下的模型泛化能力。随着大语言模型在多模态任务中的扩展,该数据集在提升中文信息检索、智能问答系统的语义理解精度方面扮演关键角色,相关技术突破正推动着搜索引擎、推荐系统等实际应用的智能化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作