ru-fandom-wiki
收藏Hugging Face2024-10-27 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/d0rj/ru-fandom-wiki
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置对应不同的主题或领域,如游戏、电影、文学等。每个配置包含网页名称和内容的字符串特征,以及一个训练集,提供了数据的大小和样本数量。
创建时间:
2024-10-25
原始信息汇总
数据集概述
数据集名称
ru-fandom-wiki
数据集配置
该数据集包含多个配置,每个配置对应不同的主题或领域。以下是各配置的详细信息:
配置列表
- all-interesting
- autopedia
- clash-royale
- clashofclans
- counterstrike
- cuphead
- darksouls
- dc
- disney
- divinity
- dota2
- dragonage
- elderscrolls
- extinct-animals
- fallout
- gameofthrones
- gravityfalls
- harrypotter
- heartsofiron
- hollowknight
- inheritance
- jojo
- lands
- leagueoflegends
- lego
- losyash-library
- lotr
- luntik
- mario
- marvelcinematicuniverse
- metro
- minecraft
- mlp
- mtg
- mythology
- naruto
- neopedia
- paragon
- pixar
- pokemon
- prostokvashino
- radiopedia
- reddead
- russianliterature
- sailormoon
- simpsons
- skibidi-tualet
- smurfs
- sonic
- starwars
- terraria
- thomas
- tokyoghoul
- tombraider
- totalwar
- transformers
- twinpeaks
- vedmak
- warhammer40k
- warhammerfantasy
- warriors
- wikiversity
- winxopedia
- worms
- wowwiki
数据集结构
每个配置包含以下特征:
page: 页面名称,数据类型为字符串。content: 页面内容,数据类型为字符串。
数据集分割
每个配置仅包含一个分割:
train: 训练集
数据集大小
每个配置的训练集大小和示例数量如下:
| 配置名称 | 训练集大小 (字节) | 示例数量 | 下载大小 (字节) |
|---|---|---|---|
| all-interesting | 2582975 | 344 | 1251755 |
| autopedia | 4408465 | 621 | 1964638 |
| clash-royale | 2330997 | 249 | 919212 |
| clashofclans | 4717125 | 431 | 1175515 |
| counterstrike | 8134378 | 1976 | 3017101 |
| cuphead | 906413 | 191 | 329740 |
| darksouls | 18012038 | 5076 | 7115850 |
| dc | 1542579 | 361 | 583074 |
| disney | 216177343 | 44408 | 83787016 |
| divinity | 12132693 | 3905 | 5430074 |
| dota2 | 74665765 | 21541 | 27954333 |
| dragonage | 44105437 | 11962 | 18482915 |
| elderscrolls | 216177343 | 44408 | 83778625 |
| extinct-animals | 34368031 | 6530 | 14645043 |
| fallout | 283126179 | 43523 | 104509825 |
| gameofthrones | 20111027 | 3423 | 8381390 |
| gravityfalls | 6608505 | 1422 | 2259015 |
| harrypotter | 41548075 | 10260 | 15447496 |
| heartsofiron | 5602043 | 567 | 2181993 |
| hollowknight | 3029724 | 463 | 937868 |
| inheritance | 1814297 | 489 | 618114 |
| jojo | 21527599 | 2863 | 8130962 |
| lands | 5795212 | 1083 | 1599548 |
| leagueoflegends | 38038711 | 9098 | 11212397 |
| lego | 35782958 | 7182 | 14651050 |
| losyash-library | 19322358 | 2783 | 7015716 |
| lotr | 28576196 | 4414 | 8710511 |
| luntik | 4098699 | 1189 | 1720059 |
| mario | 945966 | 350 | 309391 |
| marvelcinematicuniverse | 56118924 | 7877 | 18999700 |
| metro | 38128805 | 7391 | 16011940 |
| minecraft | 146132382 | 14996 | 24437350 |
| mlp | 57447815 | 4413 | 21136639 |
| mtg | 9343084 | 1175 | 3853709 |
| mythology | 8900721 | 431 | 4431750 |
| naruto | 44055795 | 7234 | 17816753 |
| neopedia | 798811 | 300 | 257750 |
| paragon | 947391 | 546 | 272553 |
| pixar | 6894815 | 803 | 2703602 |
| pokemon | 33135122 | 3274 | 12799073 |
| prostokvashino | 1682561 | 490 | 603534 |
| radiopedia | 7526390 | 1118 | 2415352 |
| reddead | 4918001 | 920 | 1876679 |
| russianliterature | 2366232 | 448 | 1050909 |
| sailormoon | 4021292 | 625 | 1381334 |
| simpsons | 7527573 | 1968 | 2961621 |
| skibidi-tualet | 9461237 | 1426 | 2031923 |
| smurfs | 326586 | 137 | 116923 |
| sonic | 9486104 | 1105 | 3567120 |
| starwars | 96854707 | 18019 | 38068248 |
| terraria | 16398895 | 3689 | 3728274 |
| thomas | 45362793 | 5592 | 10975784 |
| tokyoghoul | 10160304 | 1622 | 3288776 |
| tombraider | 1864414 | 535 | 723528 |
| totalwar | 5353881 | 1623 | 2095268 |
| transformers | 24445601 | 4462 | 8317841 |
| twinpeaks | 344990 | 89 | 158708 |
| vedmak | 41010166 | 11409 | 16266921 |
| warhammer40k | 70535389 | 4763 | 27313380 |
| warhammerfantasy | 16601101 | 1642 | 8200353 |
| warriors | 69883461 | 8262 | 29820481 |
| wikiversity | 18412696 | 2186 | 7616560 |
| winxopedia | 27451680 | 5217 | 10607649 |
| worms | 296897 | 85 | 99866 |
| wowwiki | 47466715 | 7683 | 17638467 |
搜集汇总
数据集介绍

构建方式
ru-fandom-wiki数据集通过从多个Fandom Wiki页面中提取信息构建而成,涵盖了广泛的兴趣领域,包括游戏、电影、文学等。每个配置(config)代表一个特定的主题,数据以页面的形式组织,包含页面名称和内容两个主要字段。数据集通过自动化脚本从Fandom Wiki中抓取并整理,确保了数据的多样性和广泛性。
特点
该数据集的特点在于其广泛的覆盖范围和多样化的主题。每个配置专注于一个特定的兴趣领域,如《黑暗之魂》、《哈利·波特》等,提供了丰富的文本内容。数据集中的每个条目包含页面名称和详细内容,适合用于自然语言处理任务,如文本分类、信息提取和语义分析。数据集的规模较大,涵盖了从几百到数万个不等的页面,能够满足不同研究需求。
使用方法
ru-fandom-wiki数据集可用于多种自然语言处理任务。研究人员可以通过加载特定的配置来获取相关主题的文本数据,进行文本分析、信息提取或模型训练。数据集以Hugging Face的Dataset格式提供,用户可以使用标准的Python库进行加载和处理。通过简单的API调用,用户可以轻松访问和操作数据,支持从数据探索到模型训练的全流程。
背景与挑战
背景概述
ru-fandom-wiki数据集是一个涵盖多个主题的俄语维基百科数据集,主要聚焦于流行文化、游戏、文学和影视等领域。该数据集由多个子集构成,每个子集对应一个特定的主题,如《黑暗之魂》、《哈利·波特》、《魔兽世界》等。这些数据集的创建旨在为自然语言处理(NLP)任务提供丰富的俄语文本资源,尤其是在多领域文本理解和生成任务中。该数据集的构建时间不详,但其内容来源于Fandom平台的俄语维基页面,反映了俄语社区对流行文化的广泛兴趣。该数据集为俄语NLP研究提供了重要的数据支持,尤其是在跨领域文本分析和多语言模型训练中具有显著的应用价值。
当前挑战
ru-fandom-wiki数据集在解决俄语文本理解和生成任务时面临多重挑战。首先,由于数据集涵盖的主题广泛且多样,文本风格和内容差异较大,这对模型的泛化能力提出了较高要求。其次,俄语作为一种形态丰富的语言,其复杂的语法结构和词形变化增加了文本处理的难度。此外,数据集的构建过程中,如何确保数据的准确性和完整性也是一个重要挑战,尤其是在从Fandom平台抓取数据时,可能会遇到页面更新不及时或内容不完整的问题。最后,如何有效处理大规模文本数据,并在多领域任务中保持模型的高效性,也是该数据集应用中的一大难点。
常用场景
经典使用场景
在自然语言处理领域,ru-fandom-wiki数据集广泛应用于文本生成、信息检索和知识图谱构建等任务。该数据集包含了多个主题的维基页面内容,涵盖了从游戏、电影到文学等多个领域,为研究者提供了丰富的文本资源。通过该数据集,研究者可以训练模型生成特定主题的文本,或从中提取结构化知识,进而应用于问答系统和推荐系统等场景。
实际应用
在实际应用中,ru-fandom-wiki数据集被广泛用于构建智能问答系统、个性化推荐引擎以及内容生成工具。例如,基于该数据集训练的模型可以为用户提供特定主题的详细解释或推荐相关内容。此外,该数据集还被用于开发教育类应用,帮助学生快速获取特定领域的知识,提升学习效率。
衍生相关工作
ru-fandom-wiki数据集衍生了许多经典的研究工作,特别是在俄语自然语言处理领域。基于该数据集,研究者开发了多种语言模型和知识图谱构建工具,推动了俄语文本生成和信息提取技术的发展。此外,该数据集还被用于跨语言研究,帮助开发多语言模型,提升了模型在低资源语言环境下的表现。
以上内容由遇见数据集搜集并总结生成



