five

2ch.sc

收藏
魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/DSULT-Core/2ch.sc
下载链接
链接失效反馈
官方服务:
资源简介:
# **2ch.sc Corpus** ### A Large-Scale Japanese Anonymous Web Forum Dataset This dataset is a large-scale corpus of user-generated text scraped from `2ch.sc`, a massive and influential anonymous Japanese textboard. As a major successor to the original 2channel (`2ch.net`), it represents a significant, unfiltered snapshot of Japanese internet culture, dialogue, and public opinion spanning decades. The data consists of billions of posts across thousands of topic-specific boards, offering an unparalleled resource for studying informal language, online subcultures, and social trends. ## Dataset Structure The corpus is organized into compressed JSON Lines files (`.jsonl.zst`), where each file represents a single forum board. **File Naming Convention:** The filenames follow the pattern `newdump-{region}_{board_name}.jsonl.zst`. * **`region`**: Corresponds to the server or subdomain (e.g., `ikura`). * **`board_name`**: The name of the specific board (e.g., `anime2`). Each line within a file is a JSON object representing a single thread. ### Data Fields | Field | Type | Description | | :--- | :--- | :--- | | `id` | Integer | The unique identifier for the thread (timestamp-based). | | `title` | String | The title of the thread. | | `region` | String | The server/subdomain where the thread originated. | | `city` | String | The name of the board. | | `replies` | Integer | The total number of replies in the thread. | | `messages` | Array[Object] | An array containing all posts within the thread. | ### Message Object Structure Each object in the `messages` array contains the following fields for an individual post: | Field | Type | Description | | :--- | :--- | :--- | | `name` | String | The username of the poster, often including tripcodes or other identifiers. | | `mail` | String | The content of the "mail" field, often used for names such as `sage`. | | `dateid` | String | Timestamp and user ID string (e.g., `2016/05/19(木) 00:03:16.25 ID:uDE3xZkb0.net`). | | `body` | String | The raw HTML content of the post. | | `title` | String / Null | The title of the post, typically only present for the first post in a thread. | <details> <summary><strong>Click to view a sample JSON object for a single thread</strong></summary> ```json { "id": 1463583796, "title": "ガールズ&パンツァー GIRLS und PANZER 1591輌目", "region": "ikura", "city": "anime2", "replies": 1005, "messages": [ { "name": "名無しさん@お腹いっぱい。@\(^o^)/</b>(ワッチョイ f8f1-xKv1)<b>", "mail": "hageteon", "dateid": "2016/05/19(木) 00:03:16.25 ID:uDE3xZkb0.net", "body": " !extend:on:vvvvv:1000:512 <br> ↑冒頭にコレを二行重ねてスレ立てしておく <br> <br> 戦車道は大和撫子のたしなみ!戦車(パンツァー)のある学園生活、はじめました。 <br> ===========================重要=========================================== <br> ・【※実況厳禁】→アニメ特撮実況板:ttp://hayabusa.2ch.net/liveanime/ <br> ・公式以外の動画サイト、ファイル共有に関する話題・URL貼りは厳禁 <br> ・sage進行推奨/煽り、荒らしは徹底放置/2chブラウザの導入推奨 <br> ・次スレは<a href=\"../test/read.cgi/anime2/1463583796/900\" rel=\"noopener noreferrer\" target=\"_blank\">&gt;&gt;900</a>が宣言してから立てる事。無反応なら<a href=\"../test/read.cgi/anime2/1463583796/930\" rel=\"noopener noreferrer\" target=\"_blank\">&gt;&gt;930</a>以降でスレ立て宣言順に立てる事 <br> ・次スレはwikiからコピペして立てて下さい <br> ・巡礼報告はプライバシーに十分配慮し、投稿前に内容を再確認。ガルパンファンとしてマナーを守りましょう <br> ========================================================================== <br> ●放送/配信情報 平成24年10月8日より 12話放送済 <br> TVシリーズ配信 ttp://girls-und-panzer.jp/mv_distribution.html <br> ●前スレ <br> ガールズ&パンツァー GIRLS und PANZER 1590輌目 <br> ttp://hanabi.2ch.net/test/read.cgi/anime2/1463498901/ <hr>VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured ", "title": "ガールズ&パンツァー GIRLS und PANZER 1591輌目" }, { "name": "名無しさん@お腹いっぱい。@\(^o^)/ </b>(ワンミングク MMd0-MTTD)<b>", "mail": "sage", "dateid": "2016/05/19(木) 00:10:40.89 ID:QtmQIsphM.net", "body": " <a href=\"../test/read.cgi/anime2/1463583796/1\" rel=\"noopener noreferrer\" target=\"_blank\">&gt;&gt;1</a> <br> アリガタウ、アリガタウ ", "title": null } ] } ``` </details> ## Data Curation and Processing This dataset is a direct conversion from the native 2ch/5ch `.dat` format to JSON Lines. The raw data was compressed with Zstandard due to its large size (approximately **1.8 TB** uncompressed). The scraping code used for collection is provided in `KakoIndex.py`. ## Language * **Primary Language:** Japanese (ja-JP) * **Characteristics:** The language is highly informal and specific to the platform's culture, containing extensive internet slang, neologisms, and non-standard linguistic phenomena. ## Licensing Information The licensing for this dataset is complex and not clearly defined for academic or research use. The terms of use from the original source material are translated below. The author's interpretation is that the license is functionally similar to **CC-BY-NC-ND** (Attribution-NonCommercial-NoDerivatives). * **1. "Print Out / Copy / Free Distribution" OK Mark** * **Permitted:** Printing, copying, and free distribution of the work *as is*. * **Commercial Use:** Permitted only if the distribution is free (e.g., in a free company pamphlet). * **NOT Permitted:** Any modification, including changing, altering, processing, cutting, partial use, summarizing, translating, transforming, or adapting the work. * **2. "Non-profit Use for People with Disabilities" OK Mark** * **Permitted:** All forms of non-profit use (copying, transmitting, distributing) intended for people with disabilities. This includes modifications and adaptations. * **3. "Non-profit Use for School Education" OK Mark** * **Permitted:** All forms of non-profit use (copying, transmitting, distributing) for school activities. This includes modifications and adaptations. > **Disclaimer:** Researchers should consult the original terms on 2ch.sc and use this data at their own risk, considering the legal and ethical implications. ## Potential Use Cases * **Large Language Model Training:** Training or fine-tuning models on informal, conversational Japanese. * **Sociolinguistics:** Studying the evolution of slang, memes, and online discourse. * **Sentiment Analysis:** Gauging public opinion on various topics (with awareness of significant demographic bias). * **Toxicity and Hate Speech Detection:** Developing models to identify harmful content in Japanese. * **Cultural Analytics:** Tracking and analyzing social trends and subcultural dynamics. ## ⚠️ Ethical Considerations and Limitations This dataset must be handled with extreme care due to its unfiltered and anonymous nature. * **Hate Speech and Offensive Content:** The corpus contains a high volume of explicit, offensive, and discriminatory content. * **Misinformation and Disinformation:** The platform is a significant source of rumors, conspiracy theories, and deliberate misinformation. * **Toxicity and Pervasive Bias:** The data reflects strong biases (e.g., misogynistic, xenophobic, political). Models trained on this data will inherit and likely amplify these biases if not carefully mitigated. * **Lack of Representativeness:** The user base is a self-selecting demographic and is **not representative** of the general Japanese population. * **Privacy Risks:** Although pseudonymous, posts may contain personally identifiable information (PII) through doxxing or self-disclosure. Rigorous PII scrubbing is recommended. ## A Note on the Crawling Process & お詫び (Apology) The original site prohibits crawling without prior consultation. The following note is from the website: > *負荷が掛かるので、事前相談の無いクローリングも禁止です。* > > *Crawling without prior consultation is also prohibited as it places a load on the system.* Although prior consultation was not performed, the crawl was limited to a maximum of 128 concurrent connections, which in practice saturated the connection at approximately 100Mbps to minimize server load.

# **2ch.sc 语料库** ### 大规模日本匿名网络论坛数据集 本数据集为从`2ch.sc`爬取的用户生成文本大规模语料库,该平台是原2channel(`2ch.net`)的重要后继者,亦是极具影响力的日本大型匿名文本论坛。其数据涵盖数十年间的日本网络文化、对话与公众舆论,是未经筛选的珍贵快照,包含数千个主题专属分区下的数十亿条帖子,为研究非正式日语、网络亚文化与社会趋势提供了无与伦比的资源。 ## 数据集结构 该语料库采用压缩JSON Lines格式(`.jsonl.zst`)组织,每个文件对应一个论坛分区。 **文件命名规则:** 文件名遵循`newdump-{region}_{board_name}.jsonl.zst`格式。 * **`region`**:对应服务器或子域名(例如`ikura`)。 * **`board_name`**:特定分区的名称(例如`anime2`)。 文件内的每一行均为代表单个讨论串的JSON对象。 ### 数据字段 | 字段 | 类型 | 描述 | | :--- | :--- | :--- | | `id` | 整数 | 讨论串的唯一标识符(基于时间戳生成)。 | | `title` | 字符串 | 讨论串标题。 | | `region` | 字符串 | 讨论串所属的服务器/子域名。 | | `city` | 字符串 | 分区名称。 | | `replies` | 整数 | 讨论串内的总回复数。 | | `messages` | 数组[对象] | 包含讨论串内所有帖子的数组。 | ### 帖子对象结构 `messages`数组中的每个对象代表单条帖子,包含以下字段: | 字段 | 类型 | 描述 | | :--- | :--- | :--- | | `name` | 字符串 | 发帖者用户名,通常包含trip码(tripcode)或其他标识。 | | `mail` | 字符串 | “mail”字段内容,常用于标注`sage`等指令。 | | `dateid` | 字符串 | 时间戳与用户ID字符串(例如`2016/05/19(木) 00:03:16.25 ID:uDE3xZkb0.net`)。 | | `body` | 字符串 | 帖子的原始HTML内容。 | | `title` | 字符串 / 空值 | 帖子标题,通常仅讨论串首帖包含该字段。 | <details> <summary><strong>点击查看单条讨论串的JSON对象示例</strong></summary> json { "id": 1463583796, "title": "ガールズ&パンツァー GIRLS und PANZER 1591輌目", "region": "ikura", "city": "anime2", "replies": 1005, "messages": [ { "name": "名無しさん@お腹いっぱい。@\(^o^)/</b>(ワッチョイ f8f1-xKv1)<b>", "mail": "hageteon", "dateid": "2016/05/19(木) 00:03:16.25 ID:uDE3xZkb0.net", "body": " !extend:on:vvvvv:1000:512 <br> ↑冒頭にコレを二行重ねてスレ立てしておく <br> <br> 戦車道は大和撫子のたしなみ!戦車(パンツァー)のある学園生活、はじめました。 <br> ===========================重要=========================================== <br> ・【※実況厳禁】→アニメ特撮実況板:ttp://hayabusa.2ch.net/liveanime/ <br> ・公式以外の動画サイト、ファイル共有に関する話題・URL貼りは厳禁 <br> ・sage進行推奨/煽り、荒らしは徹底放置/2chブラウザの導入推奨 <br> ・次スレは<a href="../test/read.cgi/anime2/1463583796/900" rel="noopener noreferrer" target="_blank">&gt;&gt;900</a>が宣言してから立てる事。無反応なら<a href="../test/read.cgi/anime2/1463583796/930" rel="noopener noreferrer" target="_blank">&gt;&gt;930</a>以降でスレ立て宣言順に立てる事 <br> ・次スレはwikiからコピペして立てて下さい <br> ・巡礼報告はプライバシーに十分配慮し、投稿前に内容を再確認。ガルパンファンとしてマナーを守りましょう <br> ========================================================================== <br> ●放送/配信情報 平成24年10月8日より 12話放送済 <br> TVシリーズ配信 ttp://girls-und-panzer.jp/mv_distribution.html <br> ●前スレ <br> ガールズ&パンツァー GIRLS und PANZER 1590輌目 <br> ttp://hanabi.2ch.net/test/read.cgi/anime2/1463498901/ <hr>VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured ", "title": "ガールズ&パンツァー GIRLS und PANZER 1591輌目" }, { "name": "名無しさん@お腹いっぱい。@\(^o^)/ </b>(ワンミングク MMd0-MTTD)<b>", "mail": "sage", "dateid": "2016/05/19(木) 00:10:40.89 ID:QtmQIsphM.net", "body": " <a href="../test/read.cgi/anime2/1463583796/1" rel="noopener noreferrer" target="_blank">&gt;&gt;1</a> <br> アリガタウ、アリガタウ ", "title": null } ] } </details> ## 数据整理与处理 本数据集由原始2ch/5ch的`.dat`格式直接转换为JSON Lines格式。由于原始数据体量庞大(未压缩约**1.8 TB**),采用Zstandard算法进行压缩。 数据采集所用的爬取代码已在`KakoIndex.py`中开源。 ## 语言特征 * **主要语言:** 日语(ja-JP) * **语言特点:** 文本高度非正式且贴合平台文化,包含大量网络俚语、新造词与非标准语言现象。 ## 授权信息 本数据集的授权条款较为复杂,未明确界定学术或研究用途的使用规范。以下为原始来源的使用条款翻译。 作者解读认为,该授权在功能上近似**CC-BY-NC-ND**(署名-非商业性使用-禁止演绎)。 * **1. “打印/复制/自由分发”许可标记** * **允许行为:** 原样打印、复制与自由分发作品。 * **商业使用:** 仅当分发行为免费时允许(例如用于免费企业宣传册)。 * **禁止行为:** 任何形式的修改,包括更改、调整、加工、删减、部分使用、摘要、翻译、转换或改编作品。 * **2. “面向残障人士的非营利使用”许可标记** * **允许行为:** 所有面向残障人士的非营利使用(复制、传输、分发),包括修改与改编。 * **3. “学校教育非营利使用”许可标记** * **允许行为:** 所有用于学校活动的非营利使用(复制、传输、分发),包括修改与改编。 > **免责声明:** 研究者应查阅2ch.sc官网的原始使用条款,并自行承担使用本数据的风险,同时需考量相关法律与伦理影响。 ## 潜在应用场景 * **大语言模型(Large Language Model, LLM)训练:** 针对非正式会话式日语进行模型训练或微调。 * **社会语言学研究:** 研究俚语、迷因与网络话语的演变。 * **情感分析:** 评估各类话题的公众舆论(需注意显著的人口统计偏差)。 * **攻击性与仇恨言论检测:** 开发用于识别日语有害内容的模型。 * **文化分析:** 追踪与分析社会趋势及亚文化动态。 ## ⚠️ 伦理考量与局限性 本数据集为未经筛选的匿名数据,使用时需格外谨慎。 * **仇恨言论与冒犯性内容:** 语料库包含大量露骨、冒犯性与歧视性内容。 * **错误信息与虚假信息:** 该平台是谣言、阴谋论与蓄意虚假信息的重要传播渠道。 * **攻击性与普遍偏见:** 数据反映了强烈的偏见(例如厌女、仇外、政治偏见)。若未进行妥善缓解,基于该数据训练的模型将继承并可能放大这些偏见。 * **代表性缺失:** 用户群体为自我选择的特定人群,**不具备**日本普通大众的代表性。 * **隐私风险:** 尽管采用匿名化处理,帖子仍可能通过人肉搜索或自行披露的方式包含个人可识别信息(PII),建议进行严格的PII清洗。 ## 关于爬取过程与致歉声明 原始网站禁止未经事先协商的爬取行为。以下为网站原文: > *負荷が掛かるので、事前相談の無いクローリングも禁止です。* > > *未经事先协商的爬取行为亦被禁止,因其会对服务器造成负载压力。* 尽管未进行事先协商,本次爬取将并发连接数限制为最多128个,实际连接带宽约为100Mbps,以最大限度降低对服务器的负载。
提供机构:
maas
创建时间:
2025-09-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作