R0k1e/UltraLink
收藏数据集卡片 for UltraLink
数据集概述
UltraLink 是一个多语言、基于知识的增强型、多轮对话数据集。它包含特定语言的聊天数据、语言无关的聊天数据、代码数据和数学数据,涵盖五种语言:英语、中文、西班牙语、俄语和法语。与以往仅翻译英语指令的工作不同,我们考虑了LLMs的语言特定和语言无关能力。首先,我们引入了一种基于知识的增强数据方法,以激发LLMs更多地展现特定文化知识,提高它们为不同国家用户服务的能力。此外,我们发现现代LLMs具有强大的跨语言迁移能力,因此重复学习多种语言中的相同内容是不必要的。因此,我们可以在不降低性能的情况下大幅修剪语言无关的SFT数据,使多语言SFT更加高效。
- 开发者: OpenBMB
- 论文: UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset
- 语言: 英语、中文、西班牙语、俄语和法语
- 许可证: MIT
数据集
类别
UltraLink 包含四种数据类型:代码数据、数学数据、语言无关的聊天数据和特定语言的聊天数据。所有类型的数据都以前述的五种语言表达。每种类型的数据都使用文件名进行标记,格式为 {linguistic type}_{data type}.jsonl。例如,en_code.jsonl 指定英语代码数据。
- 代码数据(code):代码生成,使用我们的语言无关管道生成。
- 数学数据(math):数学推理,使用我们的语言无关管道生成。
- 语言无关的聊天数据(chat_agnostic):与语言本身及其相关文化无关的对话。数据使用我们的语言无关管道生成。
- 特定语言的聊天数据(chat_specific):与语言本身及其相关文化高度相关的对话。数据使用我们的特定语言管道生成。
统计
UltraLink 包含特定语言的聊天数据(147K)、语言无关的聊天数据(112K)、数学数据(523K)和代码数据(250K),以对话数量衡量。
估计的平均问题和答案长度如下,以令牌数量衡量。答案在所有语言中都明显长于问题。
比较
UltraLink 包含多轮对话,并展现出每轮平均最长长度(即378.21个令牌),考虑了问题和答案。下表显示了UltraLink与现有开源多语言SFT数据集的比较。
| 数据集 | 对话数量 | 轮次 | 问题(平均) | 答案(平均) | 轮次(平均) |
|---|---|---|---|---|---|
| Okapi Dataset | 207K | 207K | 28.64 | 95.72 | 124.36 |
| Guanaco Dataset | 1173K | 1173K | 77.58 | 83.31 | 160.89 |
| Multialpaca | 132K | 132K | 39.86 | 83.71 | 123.57 |
| Phoenix SFT data | 464K | 893K | 165.27 | 200.07 | 365.34 |
| UltraLink (Ours) | 1032K | 1623K | 87.86 | 290.35 | 378.21 |
数据格式
下载的数据文件中每一行都是一个包含数据ID和对话数据的json字典。ID以文件名开始,并连接序列号。以下是示例行。
json { "id": "zh_chat_specific_191", "data": [ "请根据以下给定的文档回答我的问题。<document>李娅
李娅,安徽蚌埠人,中国退役女子体操运动员,强项为高低杠和平衡木。在中国体操队昵称“小胖”。 生平. 运动生涯. 李娅1993年开始练习体操,1999年进入安徽队,2002年入选国家队,教练为刘桂成和何花。2002年李娅在全国体操冠军赛获得平衡木冠军,开始斩露头角。2003年李娅出征第37届美国安那罕世界体操锦标赛,获得团体第四和平衡木单项第四。 2004年对于李娅来说是不寻常的一年。在获得全国平衡木冠军和全能亚军后,她参加了雅典奥运会,发挥失常。随后在世界杯英国格拉斯哥和比利时根特系列赛上,她都获得了平衡木冠军。2004年12月,李娅在英国伯明翰市举行的第12届世界杯总决赛上,李娅是发挥最好的中国女选手,获得了平衡木的银牌和高低杠的铜牌。 2005年李娅由于受伤,没有参加世界体操锦标赛,她在澳门举行的第四届东亚运动会上获得了高低杠金牌。 2006年3月李娅参加了在比利时根特举行的世界杯系列站获得高低杠金牌。两周以后在德国科特布斯举行的世界杯系列站她也获得了高低杠金牌。这两次亮相她以一套全新的,难度很大的高低杠动作技压全场,成功作出“前空翻转体180度抓杠直接接前空翻”。同年七月,她在中国上海举行的世界杯系列站获得平衡木银牌。 李娅参加了2006年10月在丹麦奥胡斯第39届体操世锦赛。她在预赛中发挥失常,平衡木上做她准备申报命名的“屈体前空翻转体180度站木”时掉下器械,不但没能获得动作的命名,也没能进入该项目的决赛。而她擅长而原本有希望冲击奖牌的高低杠的比赛也是失误连连。由于失误,她原本申报打算获得命名的动作“前空翻转体180抓杠”也未能成功使用。即使这样,她在高低杠项目上申报的另外一个动作“后摆阿拉伯前屈两周下”还是得到了国际体操联合会的认可,并且获得了正式命名。李娅在决赛前的热身活动中突然临阵主动提出退赛,最终教练组在决赛中没有安排李娅上场。最终中国女队第一次获得世界体操锦标团体冠军,李娅作为团体成员也获得一枚金牌。受此影响,她也没有参加同年在卡塔尔首都多哈举行的2006年亚洲运动会。 但是,李娅很快从失败中走出来。同年12月,在巴西圣保罗举行的第13届世界杯总决赛上,她又成功做出了她的高难动作,最后获得高低杠银牌,英国运动员获得了这个项目的金牌。李娅还获得了平衡木的金牌。赛后,国际体操联合会将“前空翻转体180度抓杠”这个高难度动作命名为“李娅空翻”。 2007年初,李娅的状况仍不错,更于世界杯马里博尔站夺得高低杠金牌,所以亦被认定为北京奥运会的夺金希望。好景不常,2007年7月中旬的一次训练中,李娅在做前空翻180度接抓杠再接前空翻时,因为没能抓住杠,摔落时手撑地,导致肘关节脱节。经过检查,发现李娅桡骨小头骨骺及桡骨环状韧带损伤,因此李娅亦缺席九月初举行的世锦赛。 自此之后,她的比赛及训练次数都减少,直至2008年宣布退役,结束她15年的体操生涯。 退役生涯. 2008年,李娅退役后入读北京体育大学,并有意向娱乐圈发展。 2009年6月25日晚,李娅在某餐厅就餐时,服务员上菜时不小心把菜汤打翻,导致她双腿、右臂大面积严重烫伤,被鉴定为十级伤残。及后法院判决李娅获赔6万余元。 2018年,李娅担任中华队女子体操队教练。 2021年,李娅担任台北市松山区三民国民小学体操队教练。 命名动作. 一共有两个体操动作以李娅的名字命名:</document>李娅在奥运会失常后,为什么能够快速从失败中恢复并取得更好的成绩?", "李娅在奥运会失常后能够快速从失败中恢复并取得更好的成绩,可能有以下几个原因:
首先,李娅具备坚韧的心理素质。作为一位体操运动员,她经历了无数次的挫折和困难,已经养成了不轻易放弃的品质。她知道失败是成功的一部分,并且能够从失败中吸取经验教训,保持积极的心态并继续努力。
其次,李娅拥有良好的训练和教练团队的支持。在奥运会失常后,李娅可能经过了深入的反思和训练调整。她的教练和团队可能对她进行了专门的指导和训练,帮助她纠正问题,并提供正确的心理支持和鼓励。
此外,李娅可能在比赛中表现出更高的动力和动作难度。奥运会失常后,她可能意识到自己在技术和难度方面还有提升的空间。通过更加刻苦的训练和尝试更多的高难度动作,她能够在比赛中展现更好的表现,提高自己的成绩。
综上所述,李娅之所以能够快速从奥运会失常中恢复并取得更好的成绩,可能是由于她良好的心理素质、训练团队的支持以及更高的动力和动作难度。这些因素共同作用,使她能够逐步克服挫折,获得更好的成绩。", "李娅如何在退役后选择继续教练的职业,并且在教练生涯中表现出色?", "李娅在退役后选择继续教练的职业可能是基于她对体操运动的热爱和对年轻运动员的培养的兴趣。作为一位退役的体操运动员,她拥有丰富的经验和专业知识,可以将这些宝贵的资源传授给新一代的体操运动员,并帮助他们实现自己的梦想。
在教练生涯中,李娅可能表现出色的原因有以下几点:
首先,她拥有出色的技术和训练经验。作为一位顶级的体操运动员,李娅在自己的运动生涯中积累了丰富的技术和训练知识。她熟悉各种动作的要领和细节,能够教授给学生正确的技术和训练方法。
其次,李娅可能具备良好的沟通能力和教学技巧。作为一名优秀的教练,不仅需要拥有优秀的技术水平,还需要能够与学生建立起良好的沟通和理解,了解他们的需求和困惑,并能够给予及时和有效的指导和帮助。李娅可能通过自己的亲身经历,能够更好地理解学生的心理和需求,并给予正确的指导和鼓励。
此外,李娅可能在教练生涯中注重培养学生的全面素质。体操运动不仅仅是技术的表演,还需要对身体素质、灵敏度、协调性等多个方面进行训练。李娅可能注重培养学生的综合素质,帮助他们在体操运动中得到全面的发展。
最后,李娅可能对学生有着耐心和关爱。作为一名优秀的教练,需要对学生保持耐心和温柔,关注学生的身心健康,并给予他们充分的支持和鼓励。李娅可能能够运用自己的亲身经历和理解,给予学生更多的关爱和帮助。
综上所述,李娅在退役后选择继续教练的职业,并且在教练生涯中表现出色可能是由于她拥有出色的技术和训练经验、良好的沟通能力和教学技巧、注重培养学生的全面素质,以及耐心和关爱学生。这些因素共同作用,使她能够在教练岗位上取得出色的表现。" ] } { "id": "fr_chat_specific_1", "data": [ "Veuillez répondre à ma question en vous basant sur le document suivant. <document> Borne routière
Une borne routière est un élément signalétique placé régulièrement en bordure de route et destiné à identifier la route concernée et à y indiquer les distances, le plus souvent vers les localités voisines. En France, les bornes routières équipent les anciens réseaux nationaux, les réseaux départementaux et autoroutiers. Elles sont entrées dans le langage familier comme synonyme de kilomètre parcouru, parfois à tort, car elles ne tiennent pas toujours compte des derniers aménagements et tracés routiers et nindiquent pas nécessairement des distances kilométriques exactes. Au fil des années, elles deviennent des points de localisation plus que des points kilométriques exacts. Au Royaume-Uni, certaines bornes routières sont classées monument historique. Historique du bornage. En France. Bornes royales. Sous Louis XV, à partir de 1745, des bornes en pierre de de haut sont mises en place sur les routes royales. Elles sont ornées dune fleur de lys en bas-relief dans un cartouche ovale, au-dessus duquel figure un nombre se référant à une distance. Cest la distance en milliers de toises depuis le point zéro situé sur le parvis de Notre-Dame de Paris. Ces bornes sont implantées toutes les mille toises, soit à intervalle dune demi-lieue (lieue de Paris) ou environ . Cest pourquoi, elles sont appelées à lépoque et encore aujourdhui, "bornes milliaires". La plupart des bornes sont des monolithes, réalisés avec la pierre locale, calcaire, grès ou granit. Généralement, elles sont de forme cylindrique ou bien tronconique, et reposent sur une base carrée pour lancrage au sol. Le chant supérieur de la base est parfois relevé dune moulure simple ou en astragale. Les bornes sont toujours disposées sur le côté gauche de la route, lorsque lon tourne le dos à Paris, afin de tenir compte de la position du postillon, qui chevauchait le cheval situé à gauche de lattelage. Les fleurs de lys ont fréquemment été martelées à la Révolution, quelquefois remplacées par des symboles républicains comme le bonnet phrygien. Sur la route vers Esternay (Marne) par exemple, 22 bornes existent encore aujourdhui. Après la Révolution. Dès la Révolution, les grandes routes construites au ont été marquées sur la base du kilomètre sur le modèle des bornes milliaires romaines. Elles sélevaient à un mètre environ du sol et leur sommet était peint en rouge afin dêtre visible. Ce bornage de kilomètre en kilomètre a été complété par des bornes hectométriques, dans les intervalles entre deux bornes kilométriques. Ces bornes intermédiaires étaient généralement constituées dune pierre rectangulaire simplement numérotée, scellée sur le bord de la route. Une borne numérotée "5" était donc située à de deux bornes kilométriques. Neuf bornes hectométriques numérotées de "1" à "9" se succédaient ainsi entre deux bornes kilométriques. De nos jours, ce système nest en général plus maintenu, excepté sur certaines routes des Alpes-de-Haute-Provence et plus rarement encore sur certaines routes départementales peu fréquentées). Dans les villes, les rues et les trottoirs trop étroits ne permettaient pas toujours de placer une borne. On se contentait alors de peindre la borne sur le mur, comme à Ligugé (ci-dessous), sur la route départementale 86. On trouve le même type de "bornage" peint sur certains passages étroits de montagne. Bornages spéciaux. Les panneaux PK sur autoroute. Grâce à la relative simplicité du tracé des autoroutes, des repères généralement sous forme de panneaux représentant une borne ou un indice de couleur blanche sur fond rectangulaire rouge sont utilisés. Les exploitants les appellent PK (points kilométriques) et précisent que lintervalle est dun kilomètre environ. Les bornes de limite départementale. Chaque passage de limite de département est marqué dune borne plus importante en taille, indiquant le nom des deux départements et les distances à parcourir pour rejoindre les villes les plus proches. Certaines possèdent lindication de distance des villes les plus proches ou encore, en zone de montagne, laltitude. Différent



