Wikipedia-Exotic
收藏Wikipedia Exotic 数据集概述
数据集简介
Wikipedia Exotic 是一个广泛的数据集,旨在提供不常见的欧洲和宗教语言的维基百科语料库。该数据集填补了现有语料库的空白,使得研究人员能够使用这些不常见的语言进行研究。
数据集目标
- 提供不常见的欧洲语言和宗教语言(如希伯来语)的维基百科语料库。
- 鼓励研究人员开发特定领域的模型,并使用这些语言进行研究,使其更易于学术界访问。
数据集发布
该数据集作为 LAION AI 的 X 项目计划的一部分发布,旨在收集和发布不常见语言的数据集。
数据集信息
- 索引时间: 2024年10月
- 来源位置: https://dumps.wikimedia.org/other/cirrussearch/
包含的语言
<table> <thead> <tr> <th>#</th> <th>Wikipedia Languages</th> </tr> </thead> <tbody> <tr><td>1</td><td>Bengali</td></tr> <tr><td>2</td><td>Chinese</td></tr> <tr><td>3</td><td>Danish</td></tr> <tr><td>4</td><td>Dutch</td></tr> <tr><td>5</td><td>English</td></tr> <tr><td>6</td><td>Estonian</td></tr> <tr><td>7</td><td>French</td></tr> <tr><td>8</td><td>Georgian</td></tr> <tr><td>9</td><td>German</td></tr> <tr><td>10</td><td>Hebrew</td></tr> <tr><td>11</td><td>Italian</td></tr> <tr><td>12</td><td>Japanese</td></tr> <tr><td>13</td><td>Korean</td></tr> <tr><td>14</td><td>Polish</td></tr> <tr><td>15</td><td>Portuguese</td></tr> <tr><td>16</td><td>Romanian</td></tr> <tr><td>17</td><td>Russian</td></tr> <tr><td>18</td><td>Spanish</td></tr> <tr><td>19</td><td>Swedish</td></tr> <tr><td>20</td><td>Ukrainian</td></tr> </tbody> </table>




