five

bigcode/github-commits-diff-dedup-pjjs-april

收藏
Hugging Face2023-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/github-commits-diff-dedup-pjjs-april
下载链接
链接失效反馈
官方服务:
资源简介:
# Deduplicated Commits Deduplicated based on diff: ``` content = '\n'.join(difflib.unified_diff( old_content.splitlines(keepends=True), new_content.splitlines(keepends=True), n=5 )) ``` ## Parameters: Minimum ngram size: 5 MinHash ngram size: 5 MinHash threshold: 0.8
提供机构:
bigcode
原始信息汇总

Deduplicated Commits

数据集处理方法

  • 去重基于差异(diff): python content = .join(difflib.unified_diff( old_content.splitlines(keepends=True), new_content.splitlines(keepends=True), n=5 ))

参数设置

  • 最小ngram大小:5
  • MinHash ngram大小:5
  • MinHash阈值:0.8
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作