five

magyar-nlp-szine-java/reddit

收藏
Hugging Face2026-02-06 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/magyar-nlp-szine-java/reddit
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 language: - hu --- # Reddit Dataset (Semantic Chunks) Hungarian Reddit conversations dataset preprocessed with semantic chunking. ## Stats | | | |---|---| | **Rows** | 1,066,356 | | **Tokens** | 42,313,152 | | **Tokenizer** | `magyar-nlp-szine-java/exotic_modernbert_128k_tokenizer_modified` | ## Columns - `text` - Chunked text content - `token_count` - Token count per chunk - `source_id` - Original source row index - `chunk_id` - Unique chunk identifier - `subreddit` - Source subreddit - `type` - Submission or comment
提供机构:
magyar-nlp-szine-java
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作