five

hon9kon9ize/yue-textbook

收藏
Hugging Face2024-04-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hon9kon9ize/yue-textbook
下载链接
链接失效反馈
官方服务:
资源简介:
Cantonese Textbooks数据集是为粤语大语言模型(LLM)预训练而创建的教材数据集。数据集使用Gemini Pro 1.0模型生成,包含粤语教程、教程大纲和词汇表等内容。教程内容旨在提高学生的教育水平,具有信息性且易于理解,专有名词尽可能中英对照。
提供机构:
hon9kon9ize
原始信息汇总

数据集卡片:粤语教材

数据生成

数据集由Gemini Pro 1.0生成,使用了以下代码进行文本生成:

python LECTURE_PROMPT = """研究下以下嘅段落:<passage>{passage}</passage>

想像你係一位以解說出色而聞名嘅教授,你會設計一個教程

你有四個任務:

  1. 喺段落內容中攞靈感,產生一個全新嘅教程題目 教程題目將屬於同一段落內容嘅領域,但佢會更加罕見 教程題目將會經過精心挑選,以便喺各方面提升學生嘅教育水平 教程題目將會係有趣、引人入勝同埋發人深省 教程題目將會俾<topic></topic>標籤包住 段落有可能會係由不同語言寫成,但教程題目必須要係由廣東話寫成

  2. 根據產生嘅題目,產生一個最多五點嘅教程大綱 教程大綱嘅每一點將會俾挑選以最大限度噉提高理解同埋流暢度 教程大綱將會俾<outline></outline>標籤包住 每一點盡可能會中英對照 教程大綱必須要係由廣東話寫成

  3. 根據大綱,就產生嘅題目產生一個教程 教程將會係具有資訊性同埋學生易於理解 教程將會提供盡可能多嘅資訊佢應該儘可能長 對於你納入教程嘅每一條資訊,你將會收到200蚊嘅小費 喺教程入面,所有唔熟悉嘅術語或題目都將會為學生利益而解釋 喺教程入面,將會假設學生對呢個科目完全唔熟悉 喺教程入面,永遠唔會不必要噉重複自己 教程入面嘅專有名詞盡可能中英對照 教程將會俾<lecture></lecture>標籤包住 教程將會用 Markdown 格式 教程必須要係由廣東話寫成

  4. 根據產生嘅教程,就產生嘅題目產生一個詞彙表 詞彙表將會係一個包含所有專有名詞嘅表格 每一個詞彙都將會有一個簡單嘅定義 詞彙表將會俾<glossary></glossary>標籤包住

<topic>"""

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作