degeneration-html-multilingual
收藏Degeneration HTML Multilingual Dataset 概述
数据集基本信息
- 名称: Degeneration HTML Multilingual Dataset
- 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 任务类别:
- 翻译
- 文本生成
- 文本分类
- 标记分类
- 句子相似度
- 语言: 英语 (en)、希伯来语 (he)、印地语 (hi)、俄语 (ru)、法语 (fr)、德语 (de)、西班牙语 (es)、中文 (zh)、意大利语 (it)、葡萄牙语 (pt)、日语 (ja)、韩语 (ko)
- 标签:
- 跨语言
- 平行语料库
- HTML结构
- 语义HTML
- 网页内容
- 文化数据集
- 哲学文本
- 结构化文本
- 多语言聊天
- 知识库
- 长上下文训练
- 复杂推理
- 文化理解
- 多轮对话
- 世界知识
- 哲学推理
- 概念理解
- 跨文化知识
- 自然语言理解
- 知识图谱
- 结构化对话
- HTML解析
- 语义分析
- 对话系统
- 多领域知识
- 批判性思维
- 分析性内容
- 深度推理
- 文化背景
- 智力话语
- 大上下文窗口
- 长上下文训练
- 综合知识
- 语义关系
- 认知处理
- 分析推理
- 文化细微差别
- 结构化思维
- 复杂HTML
- 领域专业知识
- 知识合成
- 语义理解
- 上下文学习
- 智力分析
- 结构化思维
- 教育内容
- 教育材料
- 思维过程
- 知识提取
- 语义解析
- 翻译
- 语言建模
- 文本生成
- 文档问答
- 文本分类
- 语义相似度
- 跨语言语言建模
- 网页分类
- 文档解析
- 结构预测
- 对话
- 指令遵循
- 知识库创建
- 哲学推理
- 文化分析
- 长文本生成
- 结构化输出
- HTML理解
- 网页内容分析
- 上下文窗口训练
- 多轮对话
- 跨文化理解
- 复杂推理
- 伦理推理
- 概念分析
- 文档理解
- 内容结构化
- 认知任务解决
- 分析性写作
- 批判性分析
- 结构化知识生成
- 教育内容生成
- 智力话语生成
- 文化背景理解
- 领域专业知识学习
- 语义关系理解
- 长上下文处理
- 哲学
- AI
- LLM
- 数据集大小: 1M < n < 10M
- 数据集名称: Degeneration HTML Multilingual Dataset
数据集内容
- 内容结构: 约400篇文章 × 12种语言
- 内容量: 超过800万单词
- HTML结构: 复杂,所有语言版本的结构相同
- 内容类型: 论文、文化分析、互动书籍、诗歌
语言
- 希伯来语 (原始语言)、英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、俄语、韩语、中文、印地语
数据结构
json { "id": "string", // 例如:"he/actualia6.html" 或 "en/alternative-commentary6.html" "language": "string", // 语言代码 "title": "string", // 文章标题 "content": "string", // 全文内容 "html": "string", // 完整的HTML "url": "string", // 原始网站上的URL "original_url": "string" // 希伯来语原始URL }
许可证和归属
- 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 许可证详情和归属要求:
引用
bibtex @dataset{degeneration-nation-2024, title = {The Degeneration of the Nation Multilingual Dataset}, author = {Ben Zippor}, year = {2024}, version = {1.0}, url = {https://degeneration-of-nation.org}, original_url = {https://hitdarderut-haaretz.org}, language = {Multilingual}, license = {CC BY 4.0} }
技术细节
URL结构
- 希伯来语: hitdarderut-haaretz.org/[hebrew-filename]
- 其他语言: degeneration-of-nation.org/[lang]/[english-filename]
希伯来语到英语路径映射
json { "actualia": "alternative-commentary", "tarbut-vesifrut": "culture&literature", "filosofia": "philosophy-of-learning", "igul-shachor": "night-life", "bikoret-haaretz": "press-review", "tzurat-atid": "future-tense", "handasat-enosh": "human-engineering", "acharit-halelot": "end-of-nights", "hapostim-shel-hashavua": "posts-of-the-week" }




