five

Set Ddata Adnodd Creu Crynodebau (ACC)

收藏
DataCite Commons2022-06-01 更新2024-07-13 收录
下载链接:
https://live.european-language-grid.eu/catalogue/corpus/18128
下载链接
链接失效反馈
官方服务:
资源简介:
<p><strong>Set Ddata</strong><br>Dyma gasgliad o 513 o destunau Cymraeg (erthyglau Wicipedia) a'u crynodebau. Tynnwyd pob erthygl – sydd yn cynnwys o leiaf 500 tocyn o ran hyd – ynghyd â'i grynodeb Wicipedia gan ddefnyddio WikipediaAPI. Mae'r ffeiliau crai – sy'n cynnwys yr erthyglau a’r chrynodebau a dynnwyd o Wikipedia fel ag y maent yn ymddangos yno – ar gael ar ffurf data.zip mewn fformatau html a thestun plaen ac maent wedi'u trwyddedu o dan Drwydded Ryngwladol Creative Commons Attribution 4.0. Gellir gweld y sgriptiau Python ar gyfer cyrchu'r ffeiliau a dynnwyd ac a broseswyd, a'u defnyddio gyda'r ffeil ar y cyd hon a gellir gweld hefyd y cyfarwyddiadau ar sut i’w defnyddio, fel y maent wedi’u disgrifio isod.</p><p><i><strong>Dataset</strong></i><br><i>This is a collection of 513 Welsh texts (Wikipedia articles) and their summaries. Each of the articles - containing at least 500 tokens in length - was extracted along with its Wikipedia summary using the WikipediaAPI. The raw files - containing the Wikipedia extracted articles and summaries as-is - are available in data.zip in html and plain text formats and licensed under a Creative Commons Attribution 4.0 International License. The Python scripts for accessing the extracted and processed files can be viewed and used with this Colab file with the usage instruction described below.</i></p>
提供机构:
Cardiff University and Lancaster University
创建时间:
2022-06-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作