five

acul3/KoPI-CC

收藏
Hugging Face2023-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/acul3/KoPI-CC
下载链接
链接失效反馈
官方服务:
资源简介:
KoPI-CC(Korpus Perayapan Indonesia)-CC是从Common Crawl快照中提取的印度尼西亚语文本数据集,使用了ungoliant工具进行提取,并应用了多种去重技术,如精确哈希(md5)去重和Minhash LSH近重复去重。数据集的预处理步骤包括Raw、Dedup、Neardup和Neardup_clean四个阶段,每个阶段都有详细的描述。数据集的结构包括URL、文本内容、时间戳和元数据字段。数据集在Creative Commons CC0许可证下发布。
提供机构:
acul3
原始信息汇总

数据集概述

KoPI-CC (Korpus Perayapan Indonesia)-CC 是从 Common Crawl 快照中提取的仅限印度尼西亚语的数据集,使用 ungoliant 进行处理,每个快照还应用了一些去重技术,如精确哈希(md5)去重技术和 minhash LSH 近似去重技术。

预处理

每个快照文件夹中的名称表示已应用的预处理技术:

  • Raw

    • 直接从 Common Crawl 快照使用 ungoliant 处理,未添加任何过滤器。
    • 使用相同的“原始 Common Crawl 快照”用于 2021_102021_49,可在 oscar 数据集中找到(21092201)。
  • Dedup

    • 使用 Raw 文件夹中的数据。
    • 应用文本清洗技术,如修复 HTML、去除噪声 Unicode、修复新闻标签、去除控制字符。
    • 通过移除短文本(20 个词)进行过滤。
    • 通过字符比例进行过滤,如最小字母比例(0.75)、最大大写字母比例(0.10)、最大数字比例(0.05)。
    • 通过精确去重技术进行过滤,使用 md5 哈希库对所有文本进行哈希处理,移除非唯一哈希。
    • 完整的去重步骤代码改编自 这里
  • Neardup

    • 使用 Dedup 文件夹中的数据。
    • 使用近似去重技术 Minhash 和 LSH 创建索引簇,配置如下:
      • 使用 128 个排列。
      • 6 个 n-gram 大小。
      • 使用空格分词。
      • 使用 0.8 作为相似度分数。
    • 通过移除所有索引簇中的索引进行过滤。
    • 完整的近似去重步骤代码改编自 这里
  • Neardup_clean

    • 使用 Neardup 文件夹中的数据。
    • 移除包含 印度尼西亚不良词汇 的文档。
    • 移除包含以下内容的句子:
      • 少于 3 个词。
      • 词长超过 1000 个字符。
      • 不匹配句子结尾标点的结束符号。
      • 与 JavaScript 代码相关的字符串(如 {)、lorem ipsum、印度尼西亚政策信息。
    • 移除包含以下内容的文档:
      • 少于 5 个句子。
      • 少于 500 或超过 50,000 个字符。
    • 完整的 Neardup_clean 步骤代码改编自 这里

数据集结构

数据实例

数据集中的一个示例:

json { "text": "Panitia Kerja (Panja) pembahasan RUU Cipta Kerja (Ciptaker) DPR RI memastikan naskah UU Ciptaker sudah final, tapi masih dalam penyisiran. Penyisiran dilakukan agar isi UU Ciptaker sesuai dengan kesepakatan dalam pembahasan dan tidak ada salah pengetikan (typo). "Kan memang sudah diumumkan, naskah final itu sudah. Cuma kita sekarang … DPR itu kan punya waktu 7 hari sebelum naskah resminya kita kirim ke pemerintah. Nah, sekarang itu kita sisir, jangan sampai ada yang salah pengetikan, tapi tidak mengubah substansi," kata Ketua Panja RUU Ciptaker Supratman Andi Agtas saat berbincang dengan detikcom, Jumat (9/10/2020) pukul 10.56 WIB. Supratman mengungkapkan Panja RUU Ciptaker menggelar rapat hari ini untuk melakukan penyisiran terhadap naskah UU Ciptaker. Panja, sebut dia, bekerja sama dengan pemerintah dan ahli bahasa untuk melakukan penyisiran naskah. "Sebentar, siang saya undang seluruh poksi-poksi (kelompok fraksi) Baleg (Badan Legislasi DPR), anggota Panja itu datang ke Baleg untuk melihat satu per satu, jangan sampai …. Karena kan sekarang ini tim dapur pemerintah dan DPR lagi bekerja bersama dengan ahli bahasa melihat jangan sampai ada yang typo, redundant," terangnya. Supratman membenarkan bahwa naskah UU Ciptaker yang final itu sudah beredar. Ketua Baleg DPR itu memastikan penyisiran yang dilakukan tidak mengubah substansi setiap pasal yang telah melalui proses pembahasan. "Itu yang sudah dibagikan. Tapi kan itu substansinya yang tidak mungkin akan berubah. Nah, kita pastikan nih dari sisi drafting-nya yang jadi kita pastikan," tutur Supratman. Lebih lanjut Supratman menjelaskan DPR memiliki waktu 7 hari untuk melakukan penyisiran. Anggota DPR dari Fraksi Gerindra itu memastikan paling lambat Selasa (13/10) pekan depan, naskah UU Ciptaker sudah bisa diakses oleh masyarakat melalui situs DPR. "Kita itu, DPR, punya waktu sampai 7 hari kerja. Jadi harusnya hari Selasa sudah final semua, paling lambat. Tapi saya usahakan hari ini bisa final. Kalau sudah final, semua itu langsung bisa diakses di web DPR," terang Supratman. Diberitakan sebelumnya, Wakil Ketua Baleg DPR Achmad Baidowi mengakui naskah UU Ciptaker yang telah disahkan di paripurna DPR masih dalam proses pengecekan untuk menghindari kesalahan pengetikan. Anggota Komisi VI DPR itu menyinggung soal salah ketik dalam revisi UU KPK yang disahkan pada 2019. "Mengoreksi yang typo itu boleh, asalkan tidak mengubah substansi. Jangan sampai seperti tahun lalu, ada UU salah ketik soal umur 50 (empat puluh), sehingga pemerintah harus mengonfirmasi lagi ke DPR," ucap Baidowi, Kamis (8/10).", "url": "https://news.detik.com/berita/d-5206925/baleg-dpr-naskah-final-uu-ciptaker-sedang-diperbaiki-tanpa-ubah-substansi?tag_from=wp_cb_mostPopular_list&_ga=2.71339034.848625040.1602222726-629985507.1602222726", "timestamp": "2021-10-22T04:09:47Z", "meta": "{"warc_headers": {"content-length": "2747", "content-type": "text/plain", "warc-date": "2021-10-22T04:09:47Z", "warc-record-id": "urn:uuid:a5b2cc09-bd2b-4d0e-9e5b-2fcc5fce47cb", "warc-identified-content-language": "ind,eng", "warc-target-uri": "https://news.detik.com/berita/d-5206925/baleg-dpr-naskah-final-uu-ciptaker-sedang-diperbaiki-tanpa-ubah-substansi?tag_from=wp_cb_mostPopular_list&_ga=2.71339034.848625040.1602222726-629985507.1602222726", "warc-block-digest": "sha1:65AWBDBLS74AGDCGDBNDHBHADOKSXCKV", "warc-type": "conversion", "warc-refers-to": "urn:uuid:b7ceadba-7120-4e38-927c-a50db21f0d4f"}, "identification": {"label": "id", "prob": 0.6240405}, "annotations": null, "line_identifications": [null, {"label": "id", "prob": 0.9043896}, null, null, {"label": "id", "prob": 0.87111086}, {"label": "id", "prob": 0.9095224}, {"label": "id", "prob": 0.8579232}, {"label": "id", "prob": 0.81366056}, {"label": "id", "prob": 0.9286813}, {"label": "id", "prob": 0.8435194}, {"label": "id", "prob": 0.8387821}, null]}" }

数据字段

数据包含以下字段:

  • url:源链接,字符串类型。
  • text:文本内容,字符串类型。
  • timestamp:提取时间戳,字符串类型。
  • meta:ungoliant 工具的原始数据的 JSON 表示,可在 这里 找到(warc_header)。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作