five

nguyenthanhdo/ultrachat-aem-v2.1

收藏
Hugging Face2023-11-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nguyenthanhdo/ultrachat-aem-v2.1
下载链接
链接失效反馈
官方服务:
资源简介:
```python from datasets import load_dataset from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("minhbui/viettel_v3.2") def token_count(example): conv = example["data"] first_instruction = conv[0] first_response = conv[1] first_instruction_num_tokens = len(tokenizer.encode(first_instruction)) first_response_num_tokens = len(tokenizer.encode(first_response)) result = dict( first_instruction_num_tokens=first_instruction_num_tokens, first_response_num_tokens=first_response_num_tokens ) return result def get_medium_length(example): first_response_num_tokens = example["first_response_num_tokens"] flag = False if (first_response_num_tokens <= 350) and \ (first_response_num_tokens >= 100): flag = True return flag def answer_wo_a_question(example): flag = False if "?" not in example["data"][1]: flag = True return flag ultra_aem = load_dataset("nguyenthanhdo/ultrachat-aem-v2.0", split="train") ultra_aem = ultra_aem.map(token_count) ultra_aem_medium = ultra_aem.filter(get_medium_length) ultra_aem_question = ultra_aem_medium.filter(answer_wo_a_question) ultra_aem_question.push_to_hub("nguyenthanhdo/ultrachat-aem-v2.1") ```
提供机构:
nguyenthanhdo
原始信息汇总

数据集概述

数据集名称

  • nguyenthanhdo/ultrachat-aem-v2.0

数据集版本

  • 版本 2.0

数据处理步骤

  1. 加载数据集

    • 使用 load_dataset 函数加载 nguyenthanhdo/ultrachat-aem-v2.0 数据集的训练集。
  2. 标记计数

    • 定义 token_count 函数,计算每个对话中第一个指令和第一个响应的标记数量。
    • 使用 AutoTokenizerminhbui/viettel_v3.2 预训练模型中加载分词器。
    • 对数据集应用 token_count 函数,计算每个对话的标记数量。
  3. 筛选中等长度响应

    • 定义 get_medium_length 函数,筛选出第一个响应的标记数量在 100 到 350 之间的对话。
    • 对处理后的数据集应用 get_medium_length 函数进行筛选。
  4. 筛选无问号的响应

    • 定义 answer_wo_a_question 函数,筛选出第一个响应中不包含问号的对话。
    • 对筛选后的数据集应用 answer_wo_a_question 函数进行筛选。
  5. 上传处理后的数据集

    • 将最终处理后的数据集上传到 nguyenthanhdo/ultrachat-aem-v2.1
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作