shibing624/sharegpt_gpt4|自然语言处理数据集|多语言问答数据集

hugging_face2024-02-23 更新2024-03-04 收录

自然语言处理

多语言问答

下载链接：

https://hf-mirror.com/datasets/shibing624/sharegpt_gpt4

下载链接

链接失效反馈

资源简介：

ShareGPT中挑选出的GPT4多轮问答数据，多语言问答。数据集包含多种语言，如中文、英文、日文等，主要用于知识问答、编程题、推理计算等任务。数据集结构包括对话列表，数据分割显示了不同格式和语言的数据集大小。

提供机构：

shibing624

原始信息汇总

数据集概述

数据集名称

名称: GPT4 sharegpt
别名: sharegpt_gpt4

数据集创建者

创建者: shibing624

语言信息

支持语言: 中文、英文、日文、韩文

许可证

许可证: cc-by-4.0

数据集大小

大小范围: 100K<n<1M

数据集来源

来源: https://huggingface.co/datasets/openchat/openchat_sharegpt4_dataset/tree/main

任务类型

任务类型: 文本分类、文本生成
具体任务: 文本评分

数据集结构

数据字段

字段名称: conversations
字段类型: List of string
字段内容示例: json {"conversations":[ {"from": "human", "value": "採用優雅現代中文，用中文繁體字型，回答以下問題。為所有標題或專用字詞提供對應的英語翻譯：Using scholarly style, summarize in detail James Barrs book "Semantics of Biblical Language". Provide examples supplied in the book and give corresponding page numbers wherever applicable."}, {"from": "gpt", "value": "《聖經語言的語義學》（Semantics of Biblical Language）是詹姆斯·巴爾（James Barr）於1961年出版的一本研究聖經語言的專著。在這部作品中，巴爾對聖經希伯來語和希臘語的語言學特徵進行了深入的探討，他批判了當時盛行的聖經研究方法，主張應該將語言學原理應用於聖經文本的詮釋，以便更準確地理解聖經的意思。

巴爾在《聖經語言的語義學》中提出了幾個重要的觀點。首先，他主張語言學和語言學家在聖經研究中的角色應該受到重視。他認為，應該避免將聖經語言學和其他古典語言學區分開來，因為聖經語言和其他古代語言一樣，都有其固有的語法、語義和詞彙特點（第18-23頁）。

其次，巴爾批評了當時流行的"字根意義論"（root-meaning fallacy），即過分強調單詞的字根在詮釋聖經含義時的作用。他指出，詞義是由語境決定的，而非僅僅由字根決定。巴爾舉了希伯來語單詞 "כפר"（kāpar）為例，它在不同的語境下可以表示"遮蓋"、"贖回"或"和解"，而不是僅僅依賴其字根意義（第183-184頁）。

第三，巴爾強調了詞彙意義在詮釋聖經時的重要性。他認為，了解單詞的意義和用法對於恰當理解聖經文本至關重要。巴爾引用了希伯來語單詞 "ברית"（berîṯ，英文：covenant）和希臘語單詞 "διαθήκη"（diathēkē，英文：testament）為例，解釋了這兩個詞在聖經中的不"}, {"from": "human", "value": "繼續"}, {"from": "gpt", "value": "同含義和用法。巴爾認為，了解這些詞語在不同語境下的意義對於理解聖經中的盟約和遺囑概念至關重要（第50-53頁）。

第四，巴爾強調語境在詮釋聖經時的重要性。他認為，要理解聖經的含義，就必須考慮到文本的歷史背景、文化環境和語言風格。此外，巴爾提倡從語言學的角度研究聖經，以便更好地理解聖經的結構和風格。他以希伯來詩篇的平行主義（Parallelism）為例，闡述了語言學原理如何有助於揭示詩篇中的意象和修辭結構（第250-252頁）。

總之，《聖經語言的語義學》一書對聖經研究領域產生了深遠的影響。詹姆斯·巴爾通過對聖經語言學的深入研究，提出了許多富有洞察力的觀點，尤其是關於語言學在聖經詮釋中的重要性。這些觀點對後來的聖經研究者產生了很大的啟示，使他們在研究聖經時更加重視語言學原理，從而更加準確地理解聖經的含義。"} ]}

数据分割

分割详情:
- sharegpt_gpt4.jsonl: 6206条记录，高质量gpt4日常问答数据集，主要包含知识问答、编程题、推理计算，支持简体中文、繁体中文、英文、日文、韩文等多国语言的多轮对话数据集。
- sharegpt_V3_format.jsonl: 58674条记录，原V3版sharegpt规范格式后的数据集，主要包含日常问答，提问偏口语化，多国语言，多轮对话。
- sharegpt_zh_38K_format.jsonl: 38535条记录，中文gpt4日常问答数据集，主要包含知识问答、翻译任务、求助、编程推理任务等偏口语提问，中文，多轮对话。
- 总计: 103415条记录

贡献者

贡献者: shibing624

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录