Singapore Nationwide 2024 LLM League Dataset

github2024-10-18 更新2024-10-19 收录

下载链接：

https://github.com/taswhe/2024-sg-lol-papaoutai

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为新加坡2024年全国LLM联赛生成的，涵盖了新加坡文化的各个方面，包括食物、语言等。数据集由ChatGPT和AWS PartyRock平台生成，包含1,708个条目，主要用于比赛中的准确性和全面性评估。

This dataset was created for the 2024 Singapore National LLM League, covering all aspects of Singaporean culture such as food, language and more. Generated via ChatGPT and the AWS PartyRock platform, it includes 1,708 entries and is primarily used for assessing accuracy and comprehensiveness in the competition.

创建时间：

2024-10-17

原始信息汇总

2024新加坡全国LLM联赛数据集

数据集概述

该数据集用于新加坡全国2024年LLM联赛，主题为新加坡文化，评判标准为准确性和全面性。数据集包含三个主要文件类型：

train.4o.*.jsonl: 由4o生成的数据，涵盖新加坡文化的各个方面，总计1,075条。
train.PartyRock.jsonl: 由PartyRock生成的数据，涵盖新加坡文化的其他方面，总计633条。
ECHO-1.jsonl: 合并所有train.*.jsonl文件，总计1,708条，达到59%的胜率。

数据生成来源

数据集通过以下平台合成生成：

ChatGPT (4o/4o-mini) 通过GUI和API
AWS PartyRock 通过其GUI

注意事项

准确性: 数据经过4o-mini的事实核查，但仍需谨慎对待。
相关性: 数据为AI生成，未完全审查每条长回复的相关性。
可能存在冒犯性内容: 数据中可能包含不友好的刻板印象和粗俗语言，尤其是在Singlish条目中。
数据偏斜: 数据集在食物和Singlish方面条目较多，因这些主题在比赛中表现更好。

训练和评估统计

ECHO-1超参数设置:
- 批次大小为4，学习率为0.00025，Lora模块为q_proj,v_proj，Lora dropout为0.05。
ECHO-1训练和评估统计:
- 训练损失和评估损失在8个epoch中逐渐降低，评估Plex在第8个epoch达到最低。

词长分析

词长分布图: 展示了train.jsonl与train.4o.*.jsonl以及train.PartyRock.jsonl的词长分布。
结论: 词长并非决定性因素，内容和结构更为重要。

生成自己的数据集

使用PartyRock: 提供了几个生成数据集的链接。
使用ChatGPT API: 需要Python编程基础和OpenAI付费账户。

成本

API成本: 使用4o-mini进行敏感性检查，总计SGD 0.43。

搜集汇总

数据集介绍

构建方式

新加坡全国2024年大型语言模型联赛数据集（Singapore Nationwide 2024 LLM League Dataset）是通过合成方式构建的，主要利用了ChatGPT（4o/4o-mini）和AWS PartyRock平台。数据集的生成过程包括通过这些平台的图形用户界面（GUI）和应用程序编程接口（API）进行交互。具体而言，ChatGPT生成了关于新加坡文化的多个方面的条目，共计1,075条，而AWS PartyRock生成了涵盖其他方面的633条。最终，所有条目被整合为一个包含1,708条记录的单一文件ECHO-1.jsonl。

特点

该数据集的主要特点在于其合成生成的方式，确保了数据的新颖性和多样性。尽管数据集在某些方面可能存在偏差，例如食物和新加坡英语（Singlish）的条目较多，但这种偏差是基于在竞赛中获得更高胜率的实际考虑。此外，数据集的生成过程中进行了初步的事实核查，尽管存在一定的主观性，但整体上保持了较高的准确性。

使用方法

使用该数据集时，用户可以通过下载包含的jsonl文件进行训练和评估。数据集提供了详细的训练和评估统计数据，以及超参数设置，这些信息可以帮助用户优化模型性能。此外，数据集的生成方法也提供了参考，用户可以利用PartyRock和ChatGPT API自行生成类似的数据集，进一步扩展和定制以满足特定需求。

背景与挑战

背景概述

新加坡全国2024年大型语言模型联赛数据集（Singapore Nationwide 2024 LLM League Dataset）是由AWS组织的比赛中，由参赛者papaoutai（aka heng）创建的。该数据集聚焦于新加坡文化，旨在通过合成数据提升模型在新加坡文化相关任务中的准确性和全面性。数据集的创建利用了ChatGPT（4o/4o-mini）和AWS PartyRock平台，涵盖了新加坡文化的多个方面，如食物、语言等。该数据集的创建不仅展示了AI在文化理解和生成方面的潜力，也为未来的研究提供了宝贵的资源。

当前挑战

尽管该数据集在比赛中表现出色，但其构建过程中仍面临若干挑战。首先，数据的真实性和准确性受到AI生成内容的限制，尽管进行了事实核查，但仍需谨慎对待。其次，数据的相关性和覆盖范围存在偏差，主要集中在食物和Singlish上，其他文化方面相对较少。此外，数据集中可能包含一些具有冒犯性的内容，需要在使用时加以注意。最后，数据集的构建受限于时间和资源，未能全面覆盖所有新加坡文化领域，这限制了其在更广泛研究中的应用。

常用场景

经典使用场景

新加坡全国2024年LLM联赛数据集（Singapore Nationwide 2024 LLM League Dataset）主要用于训练和评估大型语言模型（LLM）在理解和生成新加坡文化相关内容的能力。该数据集通过ChatGPT和AWS PartyRock平台生成，涵盖了新加坡文化的多个方面，如食物、语言和历史等。其经典使用场景包括在LLM竞赛中评估模型对新加坡文化知识的准确性和全面性，以及在学术研究中用于测试和改进模型对特定文化背景的理解和表达能力。

实际应用

在实际应用中，新加坡全国2024年LLM联赛数据集可用于开发和优化面向新加坡市场的智能助手、内容生成工具和文化教育应用。例如，企业可以利用该数据集训练模型，以生成更符合新加坡消费者口味和习惯的营销内容；教育机构则可以开发基于该数据集的互动学习工具，帮助学生更好地理解和掌握新加坡文化。

衍生相关工作

基于该数据集，研究人员和开发者已经开展了一系列相关工作，包括但不限于：开发更高效的模型训练和评估方法、探索不同文化背景下的语言模型表现差异、以及创建新的文化内容生成工具。这些工作不仅丰富了LLM的应用场景，还为跨文化研究和教育提供了宝贵的资源和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集