imvladikon/knesset_meetings_corpus

Name: imvladikon/knesset_meetings_corpus
Creator: imvladikon
Published: 2022-10-23 11:45:02
License: 暂无描述

Hugging Face2022-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/imvladikon/knesset_meetings_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Knesset Meetings Corpus 2004-2005 数据集由两个主要部分组成：原始文本和经过分词及形态标注的文本。原始文本以两种格式（doc 和 txt）提供，并分为两个集合（kneset16 和 kneset17）。标注文本仅适用于 kneset16 集合。该数据集是单语言的，使用希伯来语，数据来源于原始数据。它适用于文本生成任务，特别是语言建模。该数据集属于公共领域，不需要任何许可证。

提供机构：

imvladikon

原始信息汇总

数据集概述

数据集名称: Knesset Meetings Corpus

语言: 希伯来语 (he)

许可证: PDDL (Open Data Commons Public Domain Dedication & License 1.0)

多语言性: 单语种

大小类别: 小于1千条记录

源数据集: 原始数据

任务类别: 文本生成

任务ID: 语言建模

数据集结构

数据实例:

包含282个文件，总计867,725行。
分为两种格式：doc 和 txt。
- doc 格式：使用 windows-1255 编码。
  - kneset16.zip：包含164个文件，总计543,228行。
  - kneset17.zip：包含118个文件，总计324,497行。
- txt 格式：使用 utf8 编码。
  - kneset.tar.gz：包含所有原始文本文件，分为两个文件夹。
    - 16：包含164个文件，总计543,228行。
    - 17：包含118个文件，总计324,497行。
  - knesset_txt_16.tar.gz 和 knesset_txt_17.zip：分别包含164和118个文件，总计543,228和324,497行。