plos_run_train.sh

DATASET='PLOS'

python scripts/run_summarization.py \
    --model_name_or_path GanjinZero/biobart-v2-base \
    --do_train \
    --do_eval \
    --do_predict \
    --output_dir output/"${DATASET}" \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 2 \
    --predict_with_generate \
    --gradient_accumulation_steps 4 \
    --generation_max_length 500 \
    --generation_num_beams 4 \
    --val_max_target_length 500 \
    --max_source_length 1024 \
    --max_target_length 500 \
    --save_total_limit 20 \
    --save_strategy steps \
    --evaluation_strategy steps \
    --save_steps 5000 \
    --eval_steps 5000 \
    --max_steps 50000 \
    --learning_rate 5e-5 \
    --report_to wandb \
    --metric_for_best_model eval_rouge1_fmeasure \
    --load_best_model_at_end \
    --max_train_samples 4000000 \
    --max_eval_samples 10000 \
    --max_predict_samples 10000 \
    --train_file data/"${DATASET}"/PLOS_train.csv \
    --validation_file data/"${DATASET}"/PLOS_validation.csv \
    --test_file data/"${DATASET}"/PLOS_test.csv \
    --text_column source \
    --summary_column target \
    --seed 17