five

mattismegevand/lima-fr

收藏
Hugging Face2023-08-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mattismegevand/lima-fr
下载链接
链接失效反馈
官方服务:
资源简介:
LIMA-FR项目致力于将LIMA(Less Is More for Alignment)数据集从英语翻译成法语,使用了OpenAI的API(`gpt-3.5-turbo`)。源数据集LIMA可以在提供的链接中找到。安装步骤包括安装必要的库和设置OpenAI API密钥。使用方法是通过运行脚本将LIMA数据集翻译成法语,并保存翻译结果和错误信息。许可信息遵循LIMA数据集的许可规则,贡献方式欢迎但不允许与原始许可冲突。

The LIMA-FR project aims to translate the LIMA (Less Is More for Alignment) dataset from English into French, utilizing OpenAI's API (`gpt-3.5-turbo`). The original LIMA dataset is accessible via the provided link. The installation steps include installing required libraries and configuring the OpenAI API key. The usage method is to run the script to translate the LIMA dataset into French, and save both the translation results and error information. The licensing information follows the license terms of the original LIMA dataset. Contributions are welcome but must not conflict with the original license rules.
提供机构:
mattismegevand
原始信息汇总

LIMA-FR 数据集概述

基本信息

  • 许可证: 其他
  • 任务类别:
    • 问答
    • 文本生成
  • 语言:
    • 法语
  • 数据规模:
    • 1K<n<10K

数据集来源

  • 源数据集: LIMA (Less Is More for Alignment)

数据集处理

  • 翻译工具: OpenAI API (gpt-3.5-turbo)
  • 处理步骤:
    1. 加载 LIMA 数据集(训练和测试部分)。
    2. 使用 OpenAI API 将每个项目从英语翻译为法语。
    3. 保存翻译后的项目到 lima-fr_train.jsonllima-fr_test.jsonl
    4. 保存任何遗漏的翻译或错误到 missed_entries_train.jsonlmissed_entries_test.jsonl

许可证

  • 遵循规则: 如果 LIMA 源数据使用比 CC BY-NC-SA 更严格的许可证,则本项目遵循相同的许可证。否则,遵循 CC BY-NC-SA 许可证。

贡献

  • 欢迎建议和贡献,但需确保不与 LIMA 数据集的原始许可证冲突。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作