Scripts to finetune GPTBigCode architecture models

This repo provides the whole pizza for fine-tuning GPTBigCode models (e.g. StarCoder) on code generation tasks. It includes:

Constant Length Dataset Loader
Scaling laws for computing the correct number of steps, given number of gpus, effective batch size, and number of epochs
LoRA, with 8, 4 bits and QLoRA (double quant) support
DeepSpeed support for fine-tuning large models
Edu-score filtering to remove non-educational data
Multi-language loss evaluation (using MultiPL-E evaluation datasets)
Custom tokenizer injection
Automatic mixed precision quantization

Name		Name	Last commit message	Last commit date
Latest commit History 124 Commits
starcoder_tokenizer_files		starcoder_tokenizer_files
tokenizer_files		tokenizer_files
tree-sitter-typescript @ b1bf482		tree-sitter-typescript @ b1bf482
wandb		wandb
.gitignore		.gitignore
.gitmodules		.gitmodules
LICENSE		LICENSE
README.md		README.md
deepspeed_z3_config_bf16.json		deepspeed_z3_config_bf16.json
deepspeed_z3_config_bf16_custom_optim_sched.json		deepspeed_z3_config_bf16_custom_optim_sched.json
deepspeed_z3_config_bf16_offload_cpu.json		deepspeed_z3_config_bf16_offload_cpu.json
estimate_steps.py		estimate_steps.py
fim.py		fim.py
load_and_push_to_hub.py		load_and_push_to_hub.py
number_of_tokens.py		number_of_tokens.py
populate_tokenizer.sh		populate_tokenizer.sh
requirements.txt		requirements.txt
run.sh		run.sh
run_lora.sh		run_lora.sh
run_starcoder.sh		run_starcoder.sh
run_starcoder1b.sh		run_starcoder1b.sh
run_starcoder1b_fit.sh		run_starcoder1b_fit.sh
run_starcoder1b_lora.sh		run_starcoder1b_lora.sh
run_starcoder3b_fit.sh		run_starcoder3b_fit.sh
run_starcoder3b_single.sh		run_starcoder3b_single.sh
run_starcoder_fit.sh		run_starcoder_fit.sh
run_starcoder_lora.sh		run_starcoder_lora.sh
sync_pod.sh		sync_pod.sh
train.py		train.py

Provide feedback