Evaluation Detayları

#5
by DenizDius - opened

Merhaba, yaptığınız çalışma için öncelikle tebrik ederim.

Merak ettiğim soru ise Cetvel benchmark kullanırken kullandığınız scriptleri paylaşma imkanınız var mı ?

Cetvel benchmark suit lm-eval kullandığından bende onun üzerinden örnek olarak gecturk benchmarkını kullamak istedim ama accuracy olarak 0 geldi sonuç. Büyük ihtimale bir kaç ayarı değiştirsem sorun düzelecektir ancak takdir edersiniz çok fazla değiştirilebilcek parametre var ondan paylaşmanız benim gibi sonuçlara bakmak,anlamak ve irdelemek isteyen insanlar için çok faydalı olacaktır.

Merhaba, aşağıya bırakıyorum:

accelerate launch -m lm_eval --model hf --include_path ./tasks/ \
 --model_args pretrained=vngrs-ai/Kumru-2B,dtype="bfloat16",max_length=4096 \
 --tasks belebele_tr,bilmecebench,circumflex_tr,exams_tr,gecturk_generation,ironytr,mkqa_tr,mlsum_tr,news_cat,nli_tr,offenseval_tr,sts_tr,tquad,trclaim19,turkce_atasozleri,turkishmmlu,turkish_plu,tr-wikihow-summ,wiki_lingua_tr,wmt-tr-en-prompt,xcopa_tr,xfact_tr,xlsum_tr,xquad_tr \
 --device cuda:0 --batch_size auto:1 --write_out --log_samples --output_path outs \
 --trust_remote_code \
 --num_fewshot 0 \
 --use_cache cache \
 --verbosity DEBUG \
 --apply_chat_template \
 --system_instruction "Adın Kumru. VNGRS tarafından Türkçe için sıfırdan eğitilmiş bir dil modelisin."

Diğer modellerin runlarını alırken de metodolojimiz şuydu:

  • Chat modeller için --apply_chat_template flag'ini verdik.
  • Huggingface repo'sunda default system prompt'u varsa onu verdik, yoksa boş bıraktık.

Merhaba, aşağıya bırakıyorum:

accelerate launch -m lm_eval --model hf --include_path ./tasks/ \
 --model_args pretrained=vngrs-ai/Kumru-2B,dtype="bfloat16",max_length=4096 \
 --tasks belebele_tr,bilmecebench,circumflex_tr,exams_tr,gecturk_generation,ironytr,mkqa_tr,mlsum_tr,news_cat,nli_tr,offenseval_tr,sts_tr,tquad,trclaim19,turkce_atasozleri,turkishmmlu,turkish_plu,tr-wikihow-summ,wiki_lingua_tr,wmt-tr-en-prompt,xcopa_tr,xfact_tr,xlsum_tr,xquad_tr \
 --device cuda:0 --batch_size auto:1 --write_out --log_samples --output_path outs \
 --trust_remote_code \
 --num_fewshot 0 \
 --use_cache cache \
 --verbosity DEBUG \
 --apply_chat_template \
 --system_instruction "Adın Kumru. VNGRS tarafından Türkçe için sıfırdan eğitilmiş bir dil modelisin."

Diğer modellerin runlarını alırken de metodolojimiz şuydu:

  • Chat modeller için --apply_chat_template flag'ini verdik.
  • Huggingface repo'sunda default system prompt'u varsa onu verdik, yoksa boş bıraktık.

Tessekur ederim cevabiniz icin, vLLM icin evaluate etmeye calisiyordum , Cetvel benchmarktaki tasklari direkt lm eval deki main repodaki tasklere kopyalarak halletim, sizden de gelen evaluation detaylari ile artik aldiginiz skorlara benzer sonuclar alabiliyorum. Eger ilgilenirseniz kullandim script :


lm_eval \
 --model vllm \
 --model_args pretrained="vngrs-ai/Kumru-2B",dtype=auto,max_model_len=4096,tensor_parallel_size=1,trust_remote_code=True \
 --tasks gecturk_generation \
 --device cuda:0 \
 --use_cache cache \
 --verbosity DEBUG \
 --apply_chat_template \
 --num_fewshot 0 \
 --batch_size auto \
 --output_path ./results/ctevel \
 --log_samples \
 --system_instruction "Adın Kumru. VNGRS tarafından Türkçe için sıfırdan eğitilmiş bir dil modelisin."

Reproducability için: ASCII karakterlerle yazdığınız system prompt'u düzelttim.

meliksahturker changed discussion status to closed

Sign up or log in to comment