Spaces:

apak
/

MISC_NER

Running

App Files Files Community

apak commited on 7 days ago

Commit

de81b5a

verified ·

1 Parent(s): 69cb56d

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -18

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ from transformers import pipeline
 import gradio as gr
 import os
 import re
-# YENİ: Kuantizasyon için ek kütüphane gereksinimi (spaces'te otomatiktir)
 # import bitsandbytes # Lokal çalıştırmada gereklidir
 # --- Global Log Listesini Tanımla ---
@@ -12,13 +11,12 @@ _initial_logs = []
 # --- 1. İlk Tarama Modeli (Hızlı NER) ---
 _initial_logs.append("1. Standart NER Modeli yükleniyor...")
-# GPU varsa 0 (birincil GPU) kullanılır, yoksa -1 (CPU) kullanılır.
 device_id = 0 if torch.cuda.is_available() else -1
 ner_pipe = pipeline(
     "ner",
     model="xlm-roberta-large-finetuned-conll03-english",
     aggregation_strategy="simple",
-    device=device_id # Cihaz ID ataması
 )
 _initial_logs.append("✅ Standart NER Modeli Hazır.")
@@ -30,24 +28,24 @@ IS_LLM_ENABLED = False
 # Cihaz ayarlarını ve optimizasyonları yapma
 if torch.cuda.is_available():
-    # GPU Optimizations: bfloat16 + 4-bit quantization (en iyi performans/bellek dengesi için)
     llm_model_kwargs["torch_dtype"] = torch.bfloat16
-    llm_model_kwargs["load_in_4bit"] = True # Bellek verimliliği için eklendi
     llm_device_map = "auto"
     _initial_logs.append("CUDA/GPU desteği bulundu, model **bfloat16 & 4-bit kuantizasyon** ile yüklenecek.")
 else:
     _initial_logs.append("CUDA desteği bulunamadı, model CPU üzerinde float32 ile yüklenecek.")
     llm_device_map = "cpu"
-# YENİ: Qwen gibi modeller için 'trust_remote_code' gerekli olabilir.
-llm_model_kwargs["trust_remote_code"] = True
 try:
     gen_pipe = pipeline(
         "text-generation",
         model=model_id,
         model_kwargs=llm_model_kwargs,
-        device_map=llm_device_map
     )
     IS_LLM_ENABLED = True
     _initial_logs.append("✅ LLM (Karar Verici) Başarıyla Yüklendi.")
@@ -60,7 +58,11 @@ except Exception as e:
 _initial_logs.append("✅ Modeller Hazır!")
-# --- Wikipedia Fonksiyonu ---
 wikipedia.set_lang("tr")
 def get_wiki_summary(term):
     """Wikipedia'dan bir terim için özet bilgi çeker (otomatik öneri ile)."""
@@ -74,7 +76,7 @@ def get_wiki_summary(term):
             Exception):
         return None
-# --- LLM ile Etiket Rafine Etme Fonksiyonu (RAG Kısıtlamasına Rağmen LLM Hızı İçin Optimize Edildi) ---
 def refine_label_with_llm(entity_text, wiki_context, custom_label_definitions):
     """LLM kullanarak MISC etiketini özel etiketlerden biriyle rafine eder."""
@@ -86,7 +88,6 @@ def refine_label_with_llm(entity_text, wiki_context, custom_label_definitions):
         [f"- {k}: {v}" for k, v in refinable_labels.items()]
     )
-    # Few-shot examples (Aynı kaldı)
     few_shot_examples = """ÖRNEK 1 (NORP İÇİN):
 VARLIK: Türk
 BAĞLAM: Türkler, Türkiye Cumhuriyeti'nde yaşayan ve Türkçe konuşan büyük bir etnik gruptur. (NORP tanımı ile eşleşir.)
@@ -115,7 +116,6 @@ GÖZLEM: 'General' bir rütbe, unvan veya pozisyon belirtiyor. Bağlamda 'yükse
 AKIL YÜRÜTME: Kişinin unvanını, rütbesini veya pozisyonunu tanımlayan etiket 'TITLE'dır. 'General' bu tanıma uymaktadır.
 CEVAP: TITLE
 """
-    # --- Chain of Thought (CoT) Prompt Yapısı ---
     prompt = f"""Sen uzman bir veri sınıflandırma sistemisin.
 Görevin, aşağıdaki varlığı ve bağlamı analiz ederek, **YALNIZCA** ETİKET TANIMLARI'ndan birini (veya uymuyorsa MISC'i) seçmektir.
@@ -140,7 +140,6 @@ CEVAP: [YALNIZCA SEÇİLEN ETİKETİ BÜYÜK HARFLERLE YAZ. ÖRNEK: BOOK veya LA
 """
     messages = [{"role": "user", "content": prompt}]
-    # LLM çağrısı
     try:
         outputs = gen_pipe(
             messages,
@@ -152,7 +151,6 @@ CEVAP: [YALNIZCA SEÇİLEN ETİKETİ BÜYÜK HARFLERLE YAZ. ÖRNEK: BOOK veya LA
     except Exception as e:
         return "MISC", f"LLM çalışma zamanı hatası: {e}"
-    # LLM çıktısını analiz etme (REGEX İLE İYİLEŞTİRİLDİ)
     final_label = "MISC"
     cog_output = ""
     valid_labels = list(custom_label_definitions.keys())
@@ -253,7 +251,7 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
     log_messages.append("✅ İşlem tamamlandı! Nihai sonuçlar tabloda.")
     yield log_messages, final_results
-# --- Özel Etiket Tanımları (23 Etikete Genişletildi - Eksiksiz) ---
 custom_label_definitions = {
     # Standart CoNLL-2003 etiketleri
     "PER": "Kişi adları, takma adlar, ünlüler.",
@@ -296,14 +294,12 @@ def process_ner_request(text, progress=gr.Progress()):
         if results_step is not None:
             final_results = results_step
-        # --- Geçici Log Çıktısı Oluşturma ---
         log_output_html = "<div style='max-height: 200px; overflow-y: scroll; border: 1px solid #eee; padding: 10px; margin-bottom: 10px; background-color: #f9f9f9; border-radius: 8px; font-family: monospace; font-size: 12px;'>"
         for log in all_logs:
             color = 'blue' if '✅' in log else ('orange' if '⚠️' in log else ('red' if '❌' in log else ('gray' if '➡️' in log else 'black')))
             log_output_html += f"<p style='margin: 0; color: {color};'>{log.replace('  ', '&nbsp;&nbsp;&nbsp;')}</p>"
         log_output_html += "</div>"
-        # --- Geçici/Nihai Sonuç Tablosu Oluşturma ---
         current_results_html = ""
         if final_results:
@@ -319,7 +315,6 @@ def process_ner_request(text, progress=gr.Progress()):
                 "CYBER": "background-color: #dbeafe;"
             }
-            # HTML Tablo Stilleri
             current_results_html = """
             <style>
                 .ner-table { width:100%; border-collapse: collapse; font-family: Arial, sans-serif; border-radius: 8px; overflow: hidden; box-shadow: 0 4px 6px rgba(0,0,0,0.1); }

 import gradio as gr
 import os
 import re
 # import bitsandbytes # Lokal çalıştırmada gereklidir
 # --- Global Log Listesini Tanımla ---
 # --- 1. İlk Tarama Modeli (Hızlı NER) ---
 _initial_logs.append("1. Standart NER Modeli yükleniyor...")
 device_id = 0 if torch.cuda.is_available() else -1
 ner_pipe = pipeline(
     "ner",
     model="xlm-roberta-large-finetuned-conll03-english",
     aggregation_strategy="simple",
+    device=device_id
 )
 _initial_logs.append("✅ Standart NER Modeli Hazır.")
 # Cihaz ayarlarını ve optimizasyonları yapma
 if torch.cuda.is_available():
     llm_model_kwargs["torch_dtype"] = torch.bfloat16
+    llm_model_kwargs["load_in_4bit"] = True
     llm_device_map = "auto"
     _initial_logs.append("CUDA/GPU desteği bulundu, model **bfloat16 & 4-bit kuantizasyon** ile yüklenecek.")
 else:
     _initial_logs.append("CUDA desteği bulunamadı, model CPU üzerinde float32 ile yüklenecek.")
     llm_device_map = "cpu"
+# Hata Düzeltme: 'trust_remote_code' buradan KALDIRILDI.
+# llm_model_kwargs["trust_remote_code"] = True # ❌ Bu satır HATAYA neden oluyordu!
 try:
     gen_pipe = pipeline(
         "text-generation",
         model=model_id,
         model_kwargs=llm_model_kwargs,
+        device_map=llm_device_map,
+        trust_remote_code=True # ✅ Buraya taşındı, artık tekil değer olarak iletiliyor.
     )
     IS_LLM_ENABLED = True
     _initial_logs.append("✅ LLM (Karar Verici) Başarıyla Yüklendi.")
 _initial_logs.append("✅ Modeller Hazır!")
+# --- Geri kalan tüm kod (Wikipedia Fonksiyonu, LLM Rafine Etme, Pipeline, Etiketler, Gradio Arayüzü) önceki versiyonunuzdaki gibi aynı kalır. ---
+# Not: Tam kodun çalışması için bu noktadan sonraki kısımları aynen eklemelisiniz.
+# ... (Wikipedia Fonksiyonu)
 wikipedia.set_lang("tr")
 def get_wiki_summary(term):
     """Wikipedia'dan bir terim için özet bilgi çeker (otomatik öneri ile)."""
             Exception):
         return None
+# --- LLM ile Etiket Rafine Etme Fonksiyonu ---
 def refine_label_with_llm(entity_text, wiki_context, custom_label_definitions):
     """LLM kullanarak MISC etiketini özel etiketlerden biriyle rafine eder."""
         [f"- {k}: {v}" for k, v in refinable_labels.items()]
     )
     few_shot_examples = """ÖRNEK 1 (NORP İÇİN):
 VARLIK: Türk
 BAĞLAM: Türkler, Türkiye Cumhuriyeti'nde yaşayan ve Türkçe konuşan büyük bir etnik gruptur. (NORP tanımı ile eşleşir.)
 AKIL YÜRÜTME: Kişinin unvanını, rütbesini veya pozisyonunu tanımlayan etiket 'TITLE'dır. 'General' bu tanıma uymaktadır.
 CEVAP: TITLE
 """
     prompt = f"""Sen uzman bir veri sınıflandırma sistemisin.
 Görevin, aşağıdaki varlığı ve bağlamı analiz ederek, **YALNIZCA** ETİKET TANIMLARI'ndan birini (veya uymuyorsa MISC'i) seçmektir.
 """
     messages = [{"role": "user", "content": prompt}]
     try:
         outputs = gen_pipe(
             messages,
     except Exception as e:
         return "MISC", f"LLM çalışma zamanı hatası: {e}"
     final_label = "MISC"
     cog_output = ""
     valid_labels = list(custom_label_definitions.keys())
     log_messages.append("✅ İşlem tamamlandı! Nihai sonuçlar tabloda.")
     yield log_messages, final_results
+# --- Özel Etiket Tanımları ---
 custom_label_definitions = {
     # Standart CoNLL-2003 etiketleri
     "PER": "Kişi adları, takma adlar, ünlüler.",
         if results_step is not None:
             final_results = results_step
         log_output_html = "<div style='max-height: 200px; overflow-y: scroll; border: 1px solid #eee; padding: 10px; margin-bottom: 10px; background-color: #f9f9f9; border-radius: 8px; font-family: monospace; font-size: 12px;'>"
         for log in all_logs:
             color = 'blue' if '✅' in log else ('orange' if '⚠️' in log else ('red' if '❌' in log else ('gray' if '➡️' in log else 'black')))
             log_output_html += f"<p style='margin: 0; color: {color};'>{log.replace('  ', '&nbsp;&nbsp;&nbsp;')}</p>"
         log_output_html += "</div>"
         current_results_html = ""
         if final_results:
                 "CYBER": "background-color: #dbeafe;"
             }
             current_results_html = """
             <style>
                 .ner-table { width:100%; border-collapse: collapse; font-family: Arial, sans-serif; border-radius: 8px; overflow: hidden; box-shadow: 0 4px 6px rgba(0,0,0,0.1); }