five

projectbenyehuda/hebrew_projectbenyehuda

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/projectbenyehuda/hebrew_projectbenyehuda
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含数千个希伯来语的公共领域作品,来源于Project Ben-Yehuda,以纯文本UTF-8文件、带有和不带有音标(nikkud)的文本文件以及HTML文件的形式提供。数据集的主要用途包括文本生成和掩码语言建模任务。数据集的规模在10K到100K之间,包含10078个文件,总大小为318732537字节。数据集的字段包括id、url、title、authors、translators、original_language、genre、source_edition和text。数据集的语言为希伯来语,许可证为MIT。

This dataset contains thousands of public-domain works in Hebrew, sourced from Project Ben-Yehuda. It is provided in three formats: plain UTF-8 text files, text files with and without nikkud, and HTML files. The primary use cases of this dataset include text generation and masked language modeling tasks. The dataset ranges in scale from 10K to 100K, containing 10,078 files with a total size of 318,732,537 bytes. Its fields include id, url, title, authors, translators, original_language, genre, source_edition, and text. The dataset is in Hebrew and licensed under the MIT License.
提供机构:
projectbenyehuda
原始信息汇总

数据集概述

数据集描述

数据集摘要

该数据集包含来自Project Ben-Yehuda的数千份公共领域希伯来语作品,以纯文本UTF-8文件形式提供,带有和不带有音标(nikkud),以及HTML文件。pseudocatalogue.csv文件列出了标题、作者、流派和文件路径,以帮助处理转储。

支持的任务和排行榜

[更多信息需要]

语言

希伯来语

数据集结构

数据实例

示例: json { "id": 10, "url": "https://raw.githubusercontent.com/projectbenyehuda/public_domain_dump/master/txt/p23/m10.txt", "title": "חצי-נחמה", "authors": "אחד העם", "translators": "", "original_language": "", "genre": "מאמרים ומסות", "source_edition": "", "text": "

חצי-נחמה

1

בין כל הצרות שנתחדשו עלינו בעת האחרונה תעשׂה ביחוד רושם מעציב בלב כל איש ישׂראל התחדשות ‘עלילת־הדם’. העלילה הנתעבה הזאת, בכל יָשנה, היתה ותהיה תמיד בעינינו כחדשה, ומימי הבינים ועד עתה תצטין בפעולתה החזקה על רוח עמנו, לא רק במקום המעשׂה, כי אם גם בארצות רחוקות שהגיעה אליהן השמועה.

אמרתי: ‘על רוח עמנו’, כי אמנם רואה אני מקור החזיון הזה לא בסבּות חיצוניות, כי אם עמוק ברוח העם. בימי הבינים, שהיה כלל ישׂראל במקרים כאלה רגיל לחשוב עצמו כעומד במשפט ביחד עם אותם האומללים שעלה עליהם הגורל להיות כפּרותו, – יש מקום אמנם לראות בזה רק תוצאת הסכנה הגשמית הגדולה להכלל כולו, שהיתה כרוכה אז באמת בעקב כל עלילה כזו. גם לפני חמשים שנה, בימי מנוחה ושלוה, שעוררה עלילת דמשׂק רעש גדול כל־כך בארצות המערב, עדיין יש מקום לאמר, כי היתה בזה, להפך, יד הקנאה הגדולה לכבודם וזכויותיהם ששׂררה אז בלבות אחינו המערביים, אשר זה מעט יצאו מעבדות לחרות. אך בימינו אלה הרי מצד אחד אין הסכנה הגשמית גדולה עוד הרבה, ביחוד לקהלות רחוקות, ומצד אחר כבר הורגלנו לשמוע חרפתנו בקור רוח וקנאת כבודנו לא תאכלנו עוד, ואם בכל זאת גם עתה עודנו מתעוררים ומתנודדים בחזקה לשמע ‘עלילת־דם’, ורגש הכלל יתפרץ החוצה מכל עברים להשליך מעליו את החלאה הזאת, – אות הוא, כי לא הפחד ולא הכבוד החיצוני הם המניעים לזה, כי אם רוח העם הוא המרגיש פה את קלונו והוא זה המתעורר והמעורר; כי אעפ"י שבכל יתר הדברים כבר הביאונו צרותינו לאותו המצב שעליו אמר הנשׂיא החכם בימי קדם: ‘אין בשׂר המת מרגיש באיזמל’, – הנה פה אין ‘האיזמל’ חותך את ‘הבשׂר’ בלבד, כי אם עד הנפש יגע…

אבל – ‘אין רע בלא טוב’, כלומר, בלא לקח טוב. גם הרע הגדול הזה שאנו עסוקים בו אינו ריק מלקח טוב, ואנחנו, אשר לא אדונים אנחנו לגורלנו וגם את הטוב גם את הרע נקבל מן החוץ שלא בטובתנו, ראוי לנו לבקש ברעותינו תמיד את התועלת הלמודית הצפונה בהן, והיתה לנו זאת, לפחות, חצי נחמה.

אחד הכוחות היותר גדולים בחיי החברה הוא – ‘ההסכמה הכללית’. היו ימים שגם הפלוסופים ראו בהסכמה זו מופת נאמן על הדבר המוסכם ונתנו לה מקום בתוך שאר מופתיהם על מציאות האלהות. עתה אמנם יודעים הפלוסופים , שאין שקר ואין אולת אשר לא תוכל לבוא עליו ‘ההסכמה הכללית’, אם אך תנאי החיים נאותים לזה. אבל רק הפלוסופים יודעים זאת, ובעיני ההמון עוד גם עתה אין אַבטוֹריטט גדול מן ‘ההסכמה’: אם ‘כל העולם’ מאמינים שהדבר כן, בודאי כן הוא; ואם אני איני מבינו, אחרים מבינים; ואם אני רואה כעין סתירה לו, הרי ‘הכל’ רואים גם כן ואעפ"כ מאמינים, וכי חכם אני מכל העולם? – זה הוא בקירוב מהלך הרעיונות של האיש הפשוט, בדעת או בלי דעת ברורה, ומתוך כך הוא מסכים גם מצדו ונעשׂה בעצמו חלק מן ‘ההסכמה’.

וכל־כך גדול כוח ‘ההסכמה’, עד שעל הרוב לא יוכל האדם למַלט נפשו מפעולתה גם כשהוא עצמו הוא ‘הדבר המוסכם’. אם ‘כל העולם’ אומרים על פלוני שגדול הוא בחכמה או ביראה, שיש בו מדה פלונית, טובה או רעה, – סופו להסכים לזה גם בעצמו, אע"פ שמתחלה לא מצא בנפשו אותו היתרון או החסרון שאחרים מיחסים לו. ולא זו בלבד אלא שההסכמה הזאת מצד ‘המוסכם’ עצמו פועלת מעט מעט על תכונת רוחו עד שמקרבתו באמת (או, לפחות, מולידה בו נטיה להתקרב) אל המצב ההוא שרואה בו ‘כל העולם’. על כן יזהירו הפדגוגים בצדק, לבלתי עורר את הילדים על מגרעותיהם המוסריות בראשית התפתחותן, וכל שכּן לבלתי יחס להם מגרעות שאין בהם, כי על ידי זה אפשר שנחזק בלבם את הראשונות ונוליד בם נטיה להאחרונות.

ואולם, הדבר מובן, כי ‘כל העולם’ אינו אחד לכל אחד. האדם רואה ‘עולמו’ רק באותה החברה שהוא חושב עצמו לחלק ממנה ורואה באישיה אנשים הקרובים לו מאיזה צד; אבל אין אדם חושב למאומה הסכמת אנשים שרוחם זרה לו לגמרי, שאינו מרגיש בנפשו שום יחס פנימי בינו ובינם. ככה אין האוֹרתוֹדוֹכּסים והמשׂכילים שלנו שׂמים לב כלל אלו להסכמתם של אלו, אף בדברים שאינם נוגעים לאמונה ודת, ושׂחקם ולעגם של אלו על אלו אינו עושׂה שום רושם בלבם של שניהם, לפי שכּל אחת משתי הכּתּות רואה את חברתה כאלו אינה. ואולם כשתנאי החיים מכריחים את בני הכתות השונות להמצא במשׂא ומתן תמידי זה עם זה והם מתרגלים לראות זה בזה קודם כל את האדם, – אז יתרחב ‘עולמם’ והשקפותיהם סובלות שנויים רבים על פי הסכמת ‘העולם’ במובנו החדש.

לפיכך, בדורות שעברו, כשהיו אבותינו מאמינים בפשטו של ‘אתה בח

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含来自Project Ben-Yehuda的希伯来语公共领域文本,提供纯文本和HTML格式,适用于文本生成和语言建模任务。数据集大小适中,采用MIT许可证,允许自由使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作