five

ru-fandom-wiki

收藏
Hugging Face2024-10-27 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/d0rj/ru-fandom-wiki
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置对应不同的主题或领域,如游戏、电影、文学等。每个配置包含网页名称和内容的字符串特征,以及一个训练集,提供了数据的大小和样本数量。
创建时间:
2024-10-25
原始信息汇总

数据集概述

数据集名称

ru-fandom-wiki

数据集配置

该数据集包含多个配置,每个配置对应不同的主题或领域。以下是各配置的详细信息:

配置列表

  • all-interesting
  • autopedia
  • clash-royale
  • clashofclans
  • counterstrike
  • cuphead
  • darksouls
  • dc
  • disney
  • divinity
  • dota2
  • dragonage
  • elderscrolls
  • extinct-animals
  • fallout
  • gameofthrones
  • gravityfalls
  • harrypotter
  • heartsofiron
  • hollowknight
  • inheritance
  • jojo
  • lands
  • leagueoflegends
  • lego
  • losyash-library
  • lotr
  • luntik
  • mario
  • marvelcinematicuniverse
  • metro
  • minecraft
  • mlp
  • mtg
  • mythology
  • naruto
  • neopedia
  • paragon
  • pixar
  • pokemon
  • prostokvashino
  • radiopedia
  • reddead
  • russianliterature
  • sailormoon
  • simpsons
  • skibidi-tualet
  • smurfs
  • sonic
  • starwars
  • terraria
  • thomas
  • tokyoghoul
  • tombraider
  • totalwar
  • transformers
  • twinpeaks
  • vedmak
  • warhammer40k
  • warhammerfantasy
  • warriors
  • wikiversity
  • winxopedia
  • worms
  • wowwiki

数据集结构

每个配置包含以下特征:

  • page: 页面名称,数据类型为字符串。
  • content: 页面内容,数据类型为字符串。

数据集分割

每个配置仅包含一个分割:

  • train: 训练集

数据集大小

每个配置的训练集大小和示例数量如下:

配置名称 训练集大小 (字节) 示例数量 下载大小 (字节)
all-interesting 2582975 344 1251755
autopedia 4408465 621 1964638
clash-royale 2330997 249 919212
clashofclans 4717125 431 1175515
counterstrike 8134378 1976 3017101
cuphead 906413 191 329740
darksouls 18012038 5076 7115850
dc 1542579 361 583074
disney 216177343 44408 83787016
divinity 12132693 3905 5430074
dota2 74665765 21541 27954333
dragonage 44105437 11962 18482915
elderscrolls 216177343 44408 83778625
extinct-animals 34368031 6530 14645043
fallout 283126179 43523 104509825
gameofthrones 20111027 3423 8381390
gravityfalls 6608505 1422 2259015
harrypotter 41548075 10260 15447496
heartsofiron 5602043 567 2181993
hollowknight 3029724 463 937868
inheritance 1814297 489 618114
jojo 21527599 2863 8130962
lands 5795212 1083 1599548
leagueoflegends 38038711 9098 11212397
lego 35782958 7182 14651050
losyash-library 19322358 2783 7015716
lotr 28576196 4414 8710511
luntik 4098699 1189 1720059
mario 945966 350 309391
marvelcinematicuniverse 56118924 7877 18999700
metro 38128805 7391 16011940
minecraft 146132382 14996 24437350
mlp 57447815 4413 21136639
mtg 9343084 1175 3853709
mythology 8900721 431 4431750
naruto 44055795 7234 17816753
neopedia 798811 300 257750
paragon 947391 546 272553
pixar 6894815 803 2703602
pokemon 33135122 3274 12799073
prostokvashino 1682561 490 603534
radiopedia 7526390 1118 2415352
reddead 4918001 920 1876679
russianliterature 2366232 448 1050909
sailormoon 4021292 625 1381334
simpsons 7527573 1968 2961621
skibidi-tualet 9461237 1426 2031923
smurfs 326586 137 116923
sonic 9486104 1105 3567120
starwars 96854707 18019 38068248
terraria 16398895 3689 3728274
thomas 45362793 5592 10975784
tokyoghoul 10160304 1622 3288776
tombraider 1864414 535 723528
totalwar 5353881 1623 2095268
transformers 24445601 4462 8317841
twinpeaks 344990 89 158708
vedmak 41010166 11409 16266921
warhammer40k 70535389 4763 27313380
warhammerfantasy 16601101 1642 8200353
warriors 69883461 8262 29820481
wikiversity 18412696 2186 7616560
winxopedia 27451680 5217 10607649
worms 296897 85 99866
wowwiki 47466715 7683 17638467
搜集汇总
数据集介绍
main_image_url
构建方式
ru-fandom-wiki数据集通过从多个Fandom Wiki页面中提取信息构建而成,涵盖了广泛的兴趣领域,包括游戏、电影、文学等。每个配置(config)代表一个特定的主题,数据以页面的形式组织,包含页面名称和内容两个主要字段。数据集通过自动化脚本从Fandom Wiki中抓取并整理,确保了数据的多样性和广泛性。
特点
该数据集的特点在于其广泛的覆盖范围和多样化的主题。每个配置专注于一个特定的兴趣领域,如《黑暗之魂》、《哈利·波特》等,提供了丰富的文本内容。数据集中的每个条目包含页面名称和详细内容,适合用于自然语言处理任务,如文本分类、信息提取和语义分析。数据集的规模较大,涵盖了从几百到数万个不等的页面,能够满足不同研究需求。
使用方法
ru-fandom-wiki数据集可用于多种自然语言处理任务。研究人员可以通过加载特定的配置来获取相关主题的文本数据,进行文本分析、信息提取或模型训练。数据集以Hugging Face的Dataset格式提供,用户可以使用标准的Python库进行加载和处理。通过简单的API调用,用户可以轻松访问和操作数据,支持从数据探索到模型训练的全流程。
背景与挑战
背景概述
ru-fandom-wiki数据集是一个涵盖多个主题的俄语维基百科数据集,主要聚焦于流行文化、游戏、文学和影视等领域。该数据集由多个子集构成,每个子集对应一个特定的主题,如《黑暗之魂》、《哈利·波特》、《魔兽世界》等。这些数据集的创建旨在为自然语言处理(NLP)任务提供丰富的俄语文本资源,尤其是在多领域文本理解和生成任务中。该数据集的构建时间不详,但其内容来源于Fandom平台的俄语维基页面,反映了俄语社区对流行文化的广泛兴趣。该数据集为俄语NLP研究提供了重要的数据支持,尤其是在跨领域文本分析和多语言模型训练中具有显著的应用价值。
当前挑战
ru-fandom-wiki数据集在解决俄语文本理解和生成任务时面临多重挑战。首先,由于数据集涵盖的主题广泛且多样,文本风格和内容差异较大,这对模型的泛化能力提出了较高要求。其次,俄语作为一种形态丰富的语言,其复杂的语法结构和词形变化增加了文本处理的难度。此外,数据集的构建过程中,如何确保数据的准确性和完整性也是一个重要挑战,尤其是在从Fandom平台抓取数据时,可能会遇到页面更新不及时或内容不完整的问题。最后,如何有效处理大规模文本数据,并在多领域任务中保持模型的高效性,也是该数据集应用中的一大难点。
常用场景
经典使用场景
在自然语言处理领域,ru-fandom-wiki数据集广泛应用于文本生成、信息检索和知识图谱构建等任务。该数据集包含了多个主题的维基页面内容,涵盖了从游戏、电影到文学等多个领域,为研究者提供了丰富的文本资源。通过该数据集,研究者可以训练模型生成特定主题的文本,或从中提取结构化知识,进而应用于问答系统和推荐系统等场景。
实际应用
在实际应用中,ru-fandom-wiki数据集被广泛用于构建智能问答系统、个性化推荐引擎以及内容生成工具。例如,基于该数据集训练的模型可以为用户提供特定主题的详细解释或推荐相关内容。此外,该数据集还被用于开发教育类应用,帮助学生快速获取特定领域的知识,提升学习效率。
衍生相关工作
ru-fandom-wiki数据集衍生了许多经典的研究工作,特别是在俄语自然语言处理领域。基于该数据集,研究者开发了多种语言模型和知识图谱构建工具,推动了俄语文本生成和信息提取技术的发展。此外,该数据集还被用于跨语言研究,帮助开发多语言模型,提升了模型在低资源语言环境下的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作