Spaces:

amrnibo
/

arabic

Runtime error

App Files Files Community

amrnabih-FullTeck commited on Jun 26, 2025

Commit

448953f

1 Parent(s): 614f101

Add Qari-OCR Gradio app v3

Browse files

Files changed (2) hide show

app.py +29 -53
requirements.txt +3 -4

app.py CHANGED Viewed

@@ -4,28 +4,29 @@
 import gradio as gr
 from PIL import Image
 import torch
-from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
-from qwen_vl_utils import process_vision_info
 # ———————————————
-# 1) تنصيب الحزم (يُفضل إضافتها في requirements.txt بدلاً من !pip داخل الكود)
 # ———————————————
-# !pip install transformers qwen_vl_utils accelerate>=0.26.0 PEFT -U
-# !pip install -U bitsandbytes
-# !pip install gradio pillow
-# ———————————————
-# 2) تحميل النموذج والمعالج
-# ———————————————
 model_name = "NAMAA-Space/Qari-OCR-0.2.2.1-Arabic-2B-Instruct"
 model = Qwen2VLForConditionalGeneration.from_pretrained(
     model_name,
-    torch_dtype="auto",
     device_map="auto",
     trust_remote_code=True
 )
-processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
 max_tokens = 2000
 prompt = (
@@ -35,59 +36,34 @@ prompt = (
 )
 # ———————————————
-# 3) دالة الـOCR
 # ———————————————
 def ocr_from_image(img: Image.Image):
-    # تأكد من صيغة RGB
-    src = "temp_image.png"
-    img.convert("RGB").save(src)
-    messages = [
-        {
-            "role": "user",
-            "content": [
-                {"type": "image", "image": f"file://{src}"},
-                {"type": "text", "text": prompt},
-            ],
-        }
-    ]
-    # جهّز الرسالة
-    text = processor.apply_chat_template(
-        messages, tokenize=False, add_generation_prompt=True
-    )
-    image_inputs, video_inputs = process_vision_info(messages)
     inputs = processor(
-        text=[text],
-        images=image_inputs,
-        videos=video_inputs,
-        padding=True,
         return_tensors="pt",
     ).to(model.device)
-    # استدعاء النموذج
-    generated_ids = model.generate(**inputs, max_new_tokens=max_tokens)
-    # قص التوكنز الأصلية
-    generated_ids_trimmed = [
-        out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
-    ]
-    # فكّ التشفير
-    output_text = processor.batch_decode(
-        generated_ids_trimmed,
         skip_special_tokens=True,
         clean_up_tokenization_spaces=False
     )[0]
-    # نظّف الصورة المؤقتة
-    try:
-        import os
-        os.remove(src)
-    except:
-        pass
-    return output_text
 # ———————————————
-# 4) بناء واجهة Gradio
 # ———————————————
 demo = gr.Interface(
     fn=ocr_from_image,

 import gradio as gr
 from PIL import Image
 import torch
+from transformers import Qwen2VLForConditionalGeneration, AutoProcessor, BitsAndBytesConfig
 # ———————————————
+# 1) إعداد تحميل الكمّيات 4-bit
 # ———————————————
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_use_double_quant=True,
+    bnb_4bit_compute_dtype=torch.float16,
+)
 model_name = "NAMAA-Space/Qari-OCR-0.2.2.1-Arabic-2B-Instruct"
 model = Qwen2VLForConditionalGeneration.from_pretrained(
     model_name,
+    quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True
 )
+processor = AutoProcessor.from_pretrained(
+    model_name,
+    trust_remote_code=True
+)
 max_tokens = 2000
 prompt = (
 )
 # ———————————————
+# 2) دالة الـOCR بدون qwen_vl_utils
 # ———————————————
 def ocr_from_image(img: Image.Image):
+    img = img.convert("RGB")
+    # نستخدم chat_template_format لضم prompt
+    formatted = processor.chat_template_format(prompt)
     inputs = processor(
+        images=img,
+        text=[formatted],
         return_tensors="pt",
+        padding=True
     ).to(model.device)
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=max_tokens,
+        do_sample=False
+    )
+    result = processor.batch_decode(
+        outputs,
         skip_special_tokens=True,
         clean_up_tokenization_spaces=False
     )[0]
+    return result
 # ———————————————
+# 3) واجهة Gradio
 # ———————————————
 demo = gr.Interface(
     fn=ocr_from_image,

requirements.txt CHANGED Viewed

@@ -1,8 +1,7 @@
-torch
-torchvision
 transformers
 bitsandbytes
-peft
-safetensors
 gradio
 pillow

 transformers
+accelerate>=0.26.0
+PEFT
 bitsandbytes
 gradio
 pillow
+torch