Spaces:

apak
/

MISC_NER

Running

App Files Files Community

apak commited on 8 days ago

Commit

2ea678c

verified ·

1 Parent(s): ecf728a

Update app.py

Browse files

Files changed (1) hide show

app.py +212 -210

app.py CHANGED Viewed

@@ -1,86 +1,52 @@
 import torch
 import wikipedia
-from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
 import gradio as gr
 import os
-import threading
-# --- Global Durum ve Önbellek Tanımları ---
-_initial_logs = ["Sistem Başlatılıyor..."]
-# Dinamik olarak yüklenecek LLM boru hatları için önbellek
-LLM_PIPELINE_CACHE = {}
-# Önbellek kilidi (aynı anda birden fazla isteğin model yüklemeyi tetiklemesini önler)
-LLM_CACHE_LOCK = threading.Lock()
-CURRENT_LLM_MODEL = "Qwen/Qwen2.5-1.5B-Instruct" # Varsayılan model
 # --- 1. İlk Tarama Modeli (Hızlı NER) ---
-_initial_logs.append("1. Standart NER Modeli yükleniyor (XLM-RoBERTa)...")
-try:
-    ner_pipe = pipeline(
-        "ner",
-        model="xlm-roberta-large-finetuned-conll03-english",
-        aggregation_strategy="simple",
-        # CUDA varsa 0. cihaza, yoksa CPU'ya yükle
-        device=0 if torch.cuda.is_available() else -1
-    )
-    _initial_logs.append("✅ Standart NER Modeli Hazır!")
-except Exception as e:
-     _initial_logs.append(f"❌ Hata: Standart NER modeli yüklenemedi: {e}")
-     ner_pipe = None
-# --- LLM Yükleyici Fonksiyonu (Dinamik ve Önbellekli) ---
-def load_llm_pipeline(model_id):
-    """Seçilen LLM'yi yükler veya önbellekten çeker."""
-    global LLM_PIPELINE_CACHE
-    global CURRENT_LLM_MODEL
-    # Eğer model zaten önbellekte varsa, hemen geri dön
-    if model_id in LLM_PIPELINE_CACHE:
-        CURRENT_LLM_MODEL = model_id
-        return LLM_PIPELINE_CACHE[model_id]
-    # Model önbellekte yoksa, kilidi al ve yükle
-    with LLM_CACHE_LOCK:
-        # Kilidi aldıktan sonra tekrar kontrol et (başka bir iş parçacığı bu sırada yüklemiş olabilir)
-        if model_id in LLM_PIPELINE_CACHE:
-            CURRENT_LLM_MODEL = model_id
-            return LLM_PIPELINE_CACHE[model_id]
-        log_messages = [f"⚙️ LLM Yükleniyor: {model_id} (İlk yükleme yavaş olabilir. Lütfen bekleyiniz.)"]
-        yield log_messages # Log mesajını Gradio'ya anlık gönder
-        try:
-            llm_model_kwargs = {}
-            llm_device_map = "auto"
-            # 7B/8B modeller için bellek optimizasyonu
-            if torch.cuda.is_available():
-                llm_model_kwargs["torch_dtype"] = torch.bfloat16
-                log_messages.append(f"   ℹ️ CUDA mevcut. Model GPU üzerinde bfloat16 ile yüklenecek.")
-            else:
-                 log_messages.append(f"   ⚠️ CUDA mevcut değil. Model CPU üzerinde yüklenecek. **ÇOK YAVAŞ OLABİLİR.**")
-                 llm_device_map = "cpu"
-            gen_pipe = pipeline(
-                "text-generation",
-                model=model_id,
-                model_kwargs=llm_model_kwargs,
-                device_map=llm_device_map
-            )
-            # Başarılı yükleme
-            LLM_PIPELINE_CACHE[model_id] = gen_pipe
-            CURRENT_LLM_MODEL = model_id
-            log_messages.append(f"✅ LLM ({model_id}) Başarıyla Yüklendi ve Önbelleğe Alındı.")
-            yield log_messages # Başarılı yükleme mesajını gönder
-            return gen_pipe
-        except Exception as e:
-            log_messages.append(f"❌ LLM yüklenirken bir HATA oluştu: {e}")
-            log_messages.append("   ⚠️ Lütfen daha küçük bir model seçin veya yeterli kaynağa sahip olduğunuzdan emin olun.")
-            yield log_messages # Hata mesajını gönder
-            return None
 # --- Wikipedia Fonksiyonu ---
 wikipedia.set_lang("tr")
@@ -89,26 +55,28 @@ def get_wiki_summary(term):
     try:
         results = wikipedia.search(term)
         if not results: return None
         return wikipedia.summary(results[0], sentences=3, auto_suggest=False)
     except wikipedia.exceptions.PageError:
         return None
     except wikipedia.exceptions.RedirectError:
         return None
     except Exception as e:
         return None
 # --- LLM ile Etiket Rafine Etme Fonksiyonu ---
-def refine_label_with_llm(gen_pipe, entity_text, wiki_context, custom_label_definitions):
     """LLM kullanarak MISC etiketini özel etiketlerden biriyle rafine eder."""
     if gen_pipe is None:
-        return ("MISC", "LLM Yüklenemediği için rafine edilemedi.")
     labels_str = ", ".join(custom_label_definitions.keys())
     label_definitions_str = "\n".join(
         [f"- {k}: {v}" for k, v in custom_label_definitions.items()]
     )
-    # LLM için örnekler (Few-shot learning)
     few_shot_examples = """ÖRNEK 1 (NORP İÇİN):
 VARLIK: Türk
 BAĞLAM: Türkler, Türkiye Cumhuriyeti'nde yaşayan ve Türkçe konuşan büyük bir etnik gruptur. (NORP tanımı ile eşleşir.)
@@ -129,9 +97,16 @@ BAĞLAM: Halide Edib Adıvar'ın 1935'te yayınlanan ve popüler kültürde öne
 GÖZLEM: 'Sinekli Bakkal' yazar adı ve yayın tarihi ile birlikte bir 'roman' olarak anılıyor. Bağlamda 'romanıdır' ifadesi geçiyor.
 AKIL YÜRÜTME: Yazılı veya basılı eserleri, romanları ve yayınları tanımlayan etiket 'BOOK'tur. Bu tanıma uymaktadır.
 CEVAP: BOOK
     """
-    # --- Chain of Thought (CoT) Prompt Yapısı ---
     prompt = f"""Sen uzman bir veri sınıflandırma sistemisin.
 Görevin, aşağıdaki varlığı ve bağlamı analiz ederek, **YALNIZCA** ETİKET TANIMLARI'ndan birini (veya uymuyorsa MISC'i) seçmektir.
@@ -159,7 +134,7 @@ CEVAP: [SEÇİLEN ETİKET]
     # LLM çağrısı
     outputs = gen_pipe(
         messages,
-        max_new_tokens=150,
         do_sample=False,
         temperature=0.1
     )
@@ -167,151 +142,154 @@ CEVAP: [SEÇİLEN ETİKET]
     # LLM çıktısını analiz etme
     full_output = outputs[0]["generated_text"][-1]["content"].strip()
     final_label = "MISC"
     cog_output = ""
     try:
         cevap_satiri = [line for line in full_output.split('\n') if 'CEVAP:' in line][-1]
         raw_label = cevap_satiri.split('CEVAP:')[-1].strip().upper()
         akil_yurutme = [line for line in full_output.split('\n') if 'AKIL YÜRÜTME:' in line]
-        if akil_yurutme:
             cog_output = akil_yurutme[-1].replace('AKIL YÜRÜTME:', '').strip()
-        valid_labels = list(custom_label_definitions.keys())
         if raw_label in valid_labels:
             final_label = raw_label
     except IndexError:
         final_label = "MISC"
-        cog_output = "LLM Çıktısı Beklenmeyen Formatta."
-    return (final_label, cog_output)
-# --- Özel Etiket Tanımları (23 Etikete Genişletildi) ---
-custom_label_definitions = {
-    "PER": "Kişi adları, takma adlar, ünlüler.", "ORG": "Şirketler, kurumlar, hükümet kuruluşları.",
-    "LOC": "Coğrafi yerler, siyasi bölgeler, binalar.", "DATE": "Mutlak veya göreceli tarih ifadeleri.",
-    "TIME": "Günün saati, zaman aralığı.", "MONEY": "Parasal değerler, para birimleri.",
-    "QUANTITY": "Ağırlık, uzunluk, hacim gibi ölçü birimleri ve sayısal değerler.",
-    "PERCENT": "Yüzdelik ifadeler.", "NORP": "Milliyetler, etnik, dini veya politik gruplar.",
-    "LAW": "Resmi kanun, yasa, yönetmelik veya hukuki belge adı.",
-    "EVENT": "Savaşlar, festivaller, spor turnuvaları, doğal afetler veya kurumsal etkinlikler.",
-    "BOOK": "Yazılı veya basılı bir eser, yayınlanmış roman, ders kitabı.",
-    "MOVIE": "Sinema filmi, dizi, belgesel gibi görsel-işitsel yapıt.",
-    "SONG": "Müzik eseri, şarkı, beste veya albüm adı.",
-    "ART": "Resim, heykel, spesifik mimari eser adı.", "AWARD": "Ödül, madalya veya nişan adı.",
-    "PRODUCT": "Ticari olarak satılan somut bir eşya, model, cihaz veya marka serisi.",
-    "SOFTWARE": "Bilgisayar programları, mobil uygulamalar, yapay zeka sistemleri, işletim sistemleri.",
-    "ORG_SUB": "Şirket birimleri, üniversite fakülteleri, dernek şubeleri gibi büyük bir kurumun alt birimleri.",
-    "LANGUAGE": "Dillerin adı.", "TITLE": "Kişinin unvanı, rütbesini veya pozisyonunu.",
-    "CYBER": "URL, E-posta adresi, IP adresi, hashtag veya kullanıcı adı.",
-    "MISC": "Diğer adlandırılmış varlıklar (LLM tarafından rafine edilemeyen veya uymayanlar)."
-}
-# --- Ana İşlem Fonksiyonu ---
-def advanced_ner_pipeline(text, llm_model_name, target_labels, progress=gr.Progress()):
     """
     Standart NER modelini çalıştırır, MISC etiketli varlıklar için
     Wikipedia ve LLM kullanarak zenginleştirme (RAG) yapar.
     """
-    # LLM'i yüklemeyi deneme ve logları güncelleme
-    llm_loader_generator = load_llm_pipeline(llm_model_name)
-    # Yükleyici bir jeneratör olduğu için, ilk logları ve ardından pipeline objesini almalıyız.
-    llm_pipe = None
-    all_logs = list(_initial_logs)
-    # Yükleme aşamasındaki logları döndür
-    for logs_step in llm_loader_generator:
-        if isinstance(logs_step, list): # Eğer log listesi döndüyse
-            all_logs.extend(logs_step)
-            yield all_logs, None # Logları göster
-        else: # Pipeline objesi döndüyse
-            llm_pipe = logs_step
-    # Eğer yükleme sırasında hata olduysa ve llm_pipe hala None ise, dur
-    if llm_pipe is None and llm_model_name not in LLM_PIPELINE_CACHE:
-        all_logs.append("❌ LLM Yüklenemediği için zenginleştirme (RAG) devre dışı.")
-        # Devam etmeden önce son logları göster
-        yield all_logs, None
-        # llm_pipe'ın None olması durumunda aşağıda RAG yapılmayacak.
-    # Temel NER modelini çalıştır
-    if ner_pipe is None:
-        all_logs.append("❌ Temel NER boru hattı kullanılamıyor.")
-        yield all_logs, None
-        return
     try:
         initial_results = ner_pipe(text)
     except Exception as e:
-        all_logs.append(f"❌ Hata: Temel NER modelinde sorun oluştu: {e}")
-        yield all_logs, []
         return
     final_results = []
     total_entities = len(initial_results)
-    all_logs.append(f"🕵️‍♀️ Toplam {total_entities} varlık inceleniyor...")
-    yield all_logs, None # Log mesajını gönder
     for i, entity in enumerate(initial_results):
         word = entity['word']
         label = entity['entity_group']
-        score = entity['score']
         current_progress = (i + 1) / total_entities
         progress(current_progress, desc=f"İşleniyor: {word}")
         result_obj = {
             "entity": word,
             "initial_label": label,
-            "initial_score": score,
             "final_label": label,
             "source": "Model",
-            "reasoning": ""
         }
-        # Eğer etiket MISC ise ve LLM yüklü ise RAG sürecini başlat
-        if label == "MISC" and llm_pipe is not None:
             standardized_word = word.title()
-            all_logs.append(f"   ⚠️ MISC tespit edildi: '{word}' (Skor: {score:.2f}). Wikipedia'ya soruluyor...")
-            yield all_logs, final_results # Geçici logları ve sonuçları gönder
             wiki_context = get_wiki_summary(standardized_word)
             if wiki_context:
-                all_logs.append(f"   📄 Wiki Bağlamı bulundu: {wiki_context[:50]}...")
-                yield all_logs, final_results
                 # LLM'den hem etiketi hem de gerekçeyi al
-                new_label, reasoning = refine_label_with_llm(llm_pipe, standardized_word, wiki_context, target_labels)
                 result_obj["final_label"] = new_label
-                result_obj["source"] = f"RAG+LLM ({llm_model_name.split('/')[-1]})"
-                result_obj["reasoning"] = reasoning
-                all_logs.append(f"   🔄 Etiket Güncellendi: MISC -> {new_label}")
                 if reasoning:
-                     all_logs.append(f"   💡 Akıl Yürütme: {reasoning[:70]}...")
-                yield all_logs, final_results
             else:
-                all_logs.append("   ❌ Wiki'de bilgi bulunamadı, MISC olarak kalıyor.")
-                yield all_logs, final_results
         else:
-            all_logs.append(f"   ✅ {word} için etiket: {label} (Skor: {score:.2f})")
-            yield all_logs, final_results
         final_results.append(result_obj)
-    all_logs.append("✅ İşlem tamamlandı! Nihai sonuçlar tabloda.")
-    # Nihai sonuçlar ve loglar
-    yield all_logs, final_results
-# --- Gradio Arayüzü İçin Wrapper Fonksiyonu ---
-# Gradio bu jeneratör fonksiyonunu otomatik olarak işler.
-def process_ner_request(text, llm_model_name, progress=gr.Progress()):
     """
     Gradio arayüzünden çağrılan ana fonksiyondur.
     advanced_ner_pipeline'dan gelen logları ve sonuçları HTML olarak biçimlendirir.
@@ -319,79 +297,106 @@ def process_ner_request(text, llm_model_name, progress=gr.Progress()):
     all_logs = []
     final_results = None
-    # Jeneratörden gelen her adımda UI'yı güncelle
-    for logs_step, results_step in advanced_ner_pipeline(text, llm_model_name, custom_label_definitions, progress=progress):
-        all_logs = logs_step
-        # Eğer sonuçlar (tablo verisi) varsa, sonuçları güncelle
         if results_step is not None:
             final_results = results_step
         # --- Geçici Log Çıktısı Oluşturma ---
         log_output_html = "<div style='max-height: 200px; overflow-y: scroll; border: 1px solid #eee; padding: 10px; margin-bottom: 10px; background-color: #f9f9f9; border-radius: 8px; font-family: monospace; font-size: 12px;'>"
         for log in all_logs:
             color = 'blue' if '✅' in log else ('orange' if '⚠️' in log else ('red' if '❌' in log else 'black'))
             log_output_html += f"<p style='margin: 0; color: {color};'>{log.replace('   ', '&nbsp;&nbsp;&nbsp;')}</p>"
         log_output_html += "</div>"
         # --- Geçici/Nihai Sonuç Tablosu Oluşturma ---
         current_results_html = ""
-        if final_results:
             current_results_html = """
             <style>
                 .ner-table {
-                    width:100%; border-collapse: collapse; font-family: Arial, sans-serif;
-                    border-radius: 8px; overflow: hidden; box-shadow: 0 4px 6px rgba(0,0,0,0.1);
                 }
                 .ner-table th, .ner-table td {
-                    padding: 12px 15px; text-align: left; border-bottom: 1px solid #ddd;
                 }
                 .ner-table th {
-                    background-color: #3b82f6; color: white; font-weight: bold; text-transform: uppercase;
                 }
                 .ner-table tr:nth-child(even) {
-                    background-color: #f3f4f6;
                 }
                 .ner-table tr:hover {
-                    background-color: #e5e7eb;
                 }
                 .tooltip-text {
-                    visibility: hidden; background-color: #333; color: #fff; text-align: center;
-                    border-radius: 6px; padding: 5px 10px; position: absolute; z-index: 10;
-                    bottom: 125%; left: 50%; transform: translateX(-50%); opacity: 0;
-                    transition: opacity 0.3s; width: 300px; font-size: 11px; line-height: 1.4;
                 }
                 .tooltip-container:hover .tooltip-text {
-                    visibility: visible; opacity: 1;
                 }
                 .tooltip-container {
-                    position: relative; display: inline-block;
                 }
             </style>
             <table class='ner-table'>\n"""
             current_results_html += "  <tr>\n"
             current_results_html += "    <th>VARLIK</th>\n"
             current_results_html += "    <th>İLK ETİKET</th>\n"
-            current_results_html += "    <th>İLK TAHMİN SKORU</th>\n"
             current_results_html += "    <th>RAG SONRASI ETİKETİ (GEREKÇE)</th>\n"
             current_results_html += "    <th>KAYNAK</th>\n"
             current_results_html += "  </tr>\n"
             for item in final_results:
                 color_map = {
                     "PER": "background-color: #f8c291;", "LOC": "background-color: #a2c4c9;", "ORG": "background-color: #b3c99f;",
-                    "MISC": "background-color: #fef08a;", "DATE": "background-color: #e5ccff;", "TIME": "background-color: #d1d5db;",
-                    "MONEY": "background-color: #fcd34d;", "QUANTITY": "background-color: #bfdbfe;", "PERCENT": "background-color: #99f6e4;",
-                    "NORP": "background-color: #fbcfe8;", "LAW": "background-color: #f0abfc;", "EVENT": "background-color: #a7f3d0;",
-                    "BOOK": "background-color: #ffedd5;", "MOVIE": "background-color: #c7d2fe;", "SONG": "background-color: #e9d5ff;",
-                    "ART": "background-color: #bae6fd;", "AWARD": "background-color: #fee2e2;", "PRODUCT": "background-color: #ffc999;",
-                    "SOFTWARE": "background-color: #d1fae5;", "ORG_SUB": "background-color: #ccfbf1;", "LANGUAGE": "background-color: #fef9c3;",
-                    "TITLE": "background-color: #fecaca;", "CYBER": "background-color: #dbeafe;"
                 }
                 final_label_style = color_map.get(item['final_label'], "")
                 reasoning_tooltip = ""
                 if item.get("reasoning"):
                     reasoning_tooltip = f"""
                         <div class='tooltip-container'>
                             {item['final_label']}
@@ -403,44 +408,40 @@ def process_ner_request(text, llm_model_name, progress=gr.Progress()):
                 else:
                     reasoning_tooltip = item['final_label']
                 score_formatted = f"{item['initial_score'] * 100:.2f}%"
-                score_color = "color: #10b981;" if item['initial_score'] > 0.95 else ("color: #f59e0b;" if item['initial_score'] > 0.8 else "color: #ef4444;")
                 current_results_html += "  <tr>\n"
                 current_results_html += f"    <td>{item['entity']}</td>\n"
                 current_results_html += f"    <td>{item['initial_label']}</td>\n"
-                current_results_html += f"    <td style='{score_color} font-weight: bold;'>{score_formatted}</td>\n"
                 current_results_html += f"    <td style='{final_label_style}'>{reasoning_tooltip}</td>\n"
                 current_results_html += f"    <td>{item['source']}</td>\n"
                 current_results_html += "  </tr>\n"
             current_results_html += "</table>"
         yield log_output_html, current_results_html
 # --- Gradio Arayüzünü Tanımla ---
-# Modelleri dropdown'a ekleme
-llm_choices = [
-    ("Qwen 1.5B Instruct ", "Qwen/Qwen2.5-1.5B-Instruct"),
-    ("Mistral 7B Instruct ", "mistralai/Mistral-Large-3-675B-Instruct-2512"),
-    ("Llama 3 8B Instruct ", "meta-llama/Llama-3.1-8B-Instruct"),
-    ("Gemma-3-4b-it", "google/gemma-3-4b-it")
-]
 iface = gr.Interface(
     fn=process_ner_request,
-    inputs=[
-        gr.Textbox(lines=5, placeholder="Metin giriniz...", label="Giriş Metni"),
-        gr.Dropdown(
-            choices=llm_choices,
-            value=llm_choices[0][1], # Varsayılan: Qwen 1.5B
-            label="RAG/Akıl Yürütme İçin LLM Seçimi (Yüksek kaynak modelleri yavaş yüklenebilir!)",
-            info="Seçilen model, MISC etiketlerini rafine etmek için kullanılacaktır."
-        )
-    ],
-    outputs=[gr.HTML(label="İşlem Logları"), gr.HTML(label="İyileştirilmiş NER Sonuçları")],
-    title="Project BETA",
-    #description="Metindeki varlıkları tanır, Wikipedia (RAG) kullanarak bağlamı bulur ve seçtiğiniz LLM (Akıl Yürütme Zinciri) ile etiketleri 23 ince taneli kategoriye rafine eder. İlk modelin tahmin skorları da tabloda gösterilmektedir.",
     examples=[
         ["Milli Eğitim Bakanlığı'na bağlı Lise Birimleri, 2024 Türkiye Kupası etkinliğine katılacak ve %15 indirim uygulayacak."],
         ["General Vural, Türkçe dilini kullanan Türk askerlerini, https://example.com üzerinden uyardı. 'Hürriyet Kasidesi' eserini okudu."],
         ["Windows 11 işletim sistemi, 1000 TL karşılığında satışa sunulmuştur. 'Cumhurbaşkanı' unvanına sahip kişi, Kanun maddesini değiştirdi."],
@@ -450,5 +451,6 @@ iface = gr.Interface(
 # --- Gradio Uygulamasını Başlat ---
 if __name__ == "__main__":
     port = int(os.environ.get('PORT', 7860))
     iface.launch(share=False, server_port=port)

 import torch
 import wikipedia
+from transformers import pipeline
 import gradio as gr
 import os
+# --- Global Log Listesini Tanımla ---
+# Başlangıçtaki model yükleme mesajlarını Gradio UI'a aktarmak için bu listeyi kullanıyoruz.
+_initial_logs = []
 # --- 1. İlk Tarama Modeli (Hızlı NER) ---
+# XLM-Roberta çok dillidir ve standart olarak PER, LOC, ORG, MISC etiketleri üretir.
+_initial_logs.append("1. Standart NER Modeli yükleniyor...")
+# NER modelini yüklerken, cihazı açıkça belirterek Gradio'nun başlangıç aşamalarında oluşabilecek hataları azaltıyoruz.
+ner_pipe = pipeline(
+    "ner",
+    model="xlm-roberta-large-finetuned-conll03-english",
+    aggregation_strategy="simple",
+    device=0 if torch.cuda.is_available() else -1
+)
+# --- 2. Akıl Yürütme Modeli (LLM - RAG Karar Verici) ---
+_initial_logs.append("2. LLM (Karar Verici) yükleniyor...")
+model_id = "Qwen/Qwen2.5-1.5B-Instruct" # Türkçe yeteneği iyi ve hızlı
+llm_model_kwargs = {}
+# Cihaz ayarlarını yapma
+if torch.cuda.is_available():
+    llm_model_kwargs["torch_dtype"] = torch.bfloat16
+    llm_device_map = "auto"
+    _initial_logs.append("CUDA desteği bulundu, model GPU üzerinde bfloat16 ile yüklenecek.")
+else:
+    _initial_logs.append("CUDA desteği bulunamadı, model CPU üzerinde float32 ile yüklenecek.")
+    llm_device_map = "cpu" # Açıkça CPU'ya ayarlandı
+try:
+    gen_pipe = pipeline(
+        "text-generation",
+        model=model_id,
+        model_kwargs=llm_model_kwargs,
+        device_map=llm_device_map
+    )
+except Exception as e:
+    _initial_logs.append(f"❌ LLM yüklenirken bir hata oluştu (Muhtemelen Bellek Yetersizliği/OOM): {e}")
+    # Olası bir çökme durumunu önlemek için alternatif bir çözüm ekleyin
+    gen_pipe = None
+    _initial_logs.append("LLM boru hattı devre dışı bırakıldı. Uygulama sadece temel NER yapacaktır.")
+_initial_logs.append("✅ Modeller Hazır!")
 # --- Wikipedia Fonksiyonu ---
 wikipedia.set_lang("tr")
     try:
         results = wikipedia.search(term)
         if not results: return None
+        # İlk sonucu alır, ilk 3 cümleyi özetler
         return wikipedia.summary(results[0], sentences=3, auto_suggest=False)
     except wikipedia.exceptions.PageError:
         return None
     except wikipedia.exceptions.RedirectError:
         return None
     except Exception as e:
+        # Bu loglar konsola düşer, ancak UI log akışına dahil edilmez.
         return None
 # --- LLM ile Etiket Rafine Etme Fonksiyonu ---
+def refine_label_with_llm(entity_text, wiki_context, custom_label_definitions):
     """LLM kullanarak MISC etiketini özel etiketlerden biriyle rafine eder."""
     if gen_pipe is None:
+        return "MISC" # LLM devre dışıysa rafine etme
     labels_str = ", ".join(custom_label_definitions.keys())
     label_definitions_str = "\n".join(
         [f"- {k}: {v}" for k, v in custom_label_definitions.items()]
     )
+    # LLM için örnekler (Few-shot learning) - İyileştirilmiş ve daha çeşitli
     few_shot_examples = """ÖRNEK 1 (NORP İÇİN):
 VARLIK: Türk
 BAĞLAM: Türkler, Türkiye Cumhuriyeti'nde yaşayan ve Türkçe konuşan büyük bir etnik gruptur. (NORP tanımı ile eşleşir.)
 GÖZLEM: 'Sinekli Bakkal' yazar adı ve yayın tarihi ile birlikte bir 'roman' olarak anılıyor. Bağlamda 'romanıdır' ifadesi geçiyor.
 AKIL YÜRÜTME: Yazılı veya basılı eserleri, romanları ve yayınları tanımlayan etiket 'BOOK'tur. Bu tanıma uymaktadır.
 CEVAP: BOOK
+ÖRNEK 4 (TITLE İÇİN):
+VARLIK: General
+BAĞLAM: Birçok orduda yüksek rütbeli bir subay unvanıdır. Türkiye'de en yüksek rütbelerden biridir. (TITLE tanımı ile eşleşir.)
+GÖZLEM: 'General' bir rütbe, unvan veya pozisyon belirtiyor. Bağlamda 'yüksek rütbeli bir subay unvanı' ifadesi geçiyor.
+AKIL YÜRÜTME: Kişinin unvanını, rütbesini veya pozisyonunu tanımlayan etiket 'TITLE'dır. 'General' bu tanıma uymaktadır.
+CEVAP: TITLE
     """
+    # --- Chain of Thought (CoT) Prompt Yapısı --- İyileştirilmiş ve daha kuralcı
     prompt = f"""Sen uzman bir veri sınıflandırma sistemisin.
 Görevin, aşağıdaki varlığı ve bağlamı analiz ederek, **YALNIZCA** ETİKET TANIMLARI'ndan birini (veya uymuyorsa MISC'i) seçmektir.
     # LLM çağrısı
     outputs = gen_pipe(
         messages,
+        max_new_tokens=150, # CoT için token sayısını koruduk
         do_sample=False,
         temperature=0.1
     )
     # LLM çıktısını analiz etme
     full_output = outputs[0]["generated_text"][-1]["content"].strip()
     final_label = "MISC"
+    # CoT'yi log'a kaydetmek için parse edelim
     cog_output = ""
     try:
+        # Cevap satırını bulur
+        # Regex ile daha sağlam arama yapılabilir, ancak şimdilik listenin sonuncusunu alıyoruz.
         cevap_satiri = [line for line in full_output.split('\n') if 'CEVAP:' in line][-1]
         raw_label = cevap_satiri.split('CEVAP:')[-1].strip().upper()
+        # GÖZLEM ve AKIL YÜRÜTME satırlarını bul
+        gözlem = [line for line in full_output.split('\n') if 'GÖZLEM:' in line]
         akil_yurutme = [line for line in full_output.split('\n') if 'AKIL YÜRÜTME:' in line]
+        if gözlem and akil_yurutme:
+            # Sadece akıl yürütme kısmını log'a eklemek için alalım
             cog_output = akil_yurutme[-1].replace('AKIL YÜRÜTME:', '').strip()
+        # Geçerli etiketleri kontrol et
+        valid_labels = list(custom_label_definitions.keys()) # UNKNOWN'ı çıkarttık, zaten tanımlı değil.
         if raw_label in valid_labels:
             final_label = raw_label
+            # CoT çıktısını etikete ekleyerek sonraki aşamada kullanmak için
+            if cog_output:
+                 return (final_label, cog_output)
     except IndexError:
+        # LLM çıktısı beklenmedik bir formattaysa MISC döner
         final_label = "MISC"
+    return (final_label, cog_output) # (Etiket, CoT Gerekçesi)
+# --- NER Pipeline Fonksiyonu (YALNIZCA 2 DEĞER ÜRETİYOR) ---
+def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
     """
     Standart NER modelini çalıştırır, MISC etiketli varlıklar için
     Wikipedia ve LLM kullanarak zenginleştirme (RAG) yapar.
     """
+    # İlk adımda, global başlangıç loglarını log_messages'a ekle.
+    log_messages = list(_initial_logs)
     try:
+        # Not: aggregation_strategy="simple" kullanıldığı için, her birleştirilmiş varlığın
+        # tahmin skoru, en yüksek skorlu alt parçaya ait olacaktır.
         initial_results = ner_pipe(text)
     except Exception as e:
+        log_messages.append(f"❌ Hata: Temel NER modelinde sorun oluştu: {e}")
+        yield log_messages, []
         return
     final_results = []
     total_entities = len(initial_results)
+    log_messages.append(f"🕵️‍♀️ Toplam {total_entities} varlık inceleniyor...")
+    # İlk yield (2 değer)
+    # Bu, model yükleme loglarını Gradio arayüzüne ilk kez gönderir.
+    yield log_messages, None
     for i, entity in enumerate(initial_results):
         word = entity['word']
         label = entity['entity_group']
+        # YENİ: Tahmin skorunu yakala ve 4 ondalık basamağa yuvarla
+        score = entity['score']
+        # Gradio ilerleme çubuğunu güncelle
         current_progress = (i + 1) / total_entities
+        # İlerlemeyi, işlenen varlık sayısıyla güncelleyin.
         progress(current_progress, desc=f"İşleniyor: {word}")
         result_obj = {
             "entity": word,
             "initial_label": label,
+            "initial_score": score, # YENİ: Skoru ekle
             "final_label": label,
             "source": "Model",
+            "reasoning": "" # CoT gerekçesi için yeni alan
         }
+        # Eğer etiket MISC ise RAG sürecini başlat
+        # Ayrıca, skor ne kadar düşükse LLM'e olan ihtiyaç o kadar artar.
+        if label == "MISC" and gen_pipe is not None:
             standardized_word = word.title()
+            log_messages.append(f"   ⚠️ MISC tespit edildi: '{word}' (Skor: {score:.2f}). Wikipedia'ya soruluyor...")
+            yield log_messages, None # Log mesajını gönder (2 değer)
             wiki_context = get_wiki_summary(standardized_word)
             if wiki_context:
+                log_messages.append(f"   📄 Wiki Bağlamı bulundu: {wiki_context[:50]}...")
+                yield log_messages, None # Log mesajını gönder (2 değer)
                 # LLM'den hem etiketi hem de gerekçeyi al
+                new_label, reasoning = refine_label_with_llm(standardized_word, wiki_context, target_labels)
                 result_obj["final_label"] = new_label
+                result_obj["source"] = "RAG+LLM (CoT)"
+                result_obj["reasoning"] = reasoning # Gerekçeyi kaydet
+                log_messages.append(f"   🔄 Etiket Güncellendi: MISC -> {new_label}")
                 if reasoning:
+                     log_messages.append(f"   💡 Akıl Yürütme: {reasoning[:70]}...")
+                yield log_messages, None # Log mesajını gönder (2 değer)
             else:
+                log_messages.append("   ❌ Wiki'de bilgi bulunamadı, MISC olarak kalıyor.")
+                yield log_messages, None # Log mesajını gönder (2 değer)
         else:
+            log_messages.append(f"   ✅ {word} için etiket: {label} (Skor: {score:.2f})")
+            yield log_messages, None # Log mesajını gönder (2 değer)
         final_results.append(result_obj)
+    log_messages.append("✅ İşlem tamamlandı! Nihai sonuçlar tabloda.")
+    # Sonuçlar hazır olduğunda final_results'ı gönder
+    yield log_messages, final_results # Nihai loglar ve sonuçlar (2 değer)
+# --- Özel Etiket Tanımları (23 Etikete Genişletildi) ---
+custom_label_definitions = {
+    # Standart CoNLL-2003 etiketleri (LLM tarafından rafine edilmez, ancak sonuçta görünür)
+    "PER": "Kişi adları, takma adlar, ünlüler.",
+    "ORG": "Şirketler, kurumlar, hükümet kuruluşları.",
+    "LOC": "Coğrafi yerler, siyasi bölgeler, binalar.",
+    # MISC içinden rafine edilecek ince taneli etiketler (Toplam 19 adet)
+    "DATE": "Mutlak veya göreceli tarih ifadeleri (yıl, ay, gün).",
+    "TIME": "Günün saati, zaman aralığı.",
+    "MONEY": "Parasal değerler, para birimleri.",
+    "QUANTITY": "Ağırlık, uzunluk, hacim gibi ölçü birimleri ve sayısal değerler.",
+    "PERCENT": "Yüzdelik ifadeler.",
+    "NORP": "Milliyetler, etnik, dini veya politik gruplar.",
+    "LAW": "Resmi kanun, yasa, yönetmelik veya hukuki belge adı.",
+    "EVENT": "Savaşlar, festivaller, spor turnuvaları, doğal afetler veya kurumsal etkinlikler.",
+    "BOOK": "Yazılı veya basılı bir eser, yayınlanmış roman, ders kitabı.",
+    "MOVIE": "Sinema filmi, dizi, belgesel gibi görsel-işitsel yapıt.",
+    "SONG": "Müzik eseri, şarkı, beste veya albüm adı.",
+    "ART": "Resim, heykel, spesifik mimari eser adı (Örn: Mona Lisa).",
+    "AWARD": "Ödül, madalya veya nişan adı (Örn: Nobel, Oscar).",
+    "PRODUCT": "Ticari olarak satılan somut bir eşya, model, cihaz veya marka serisi (Örn: iPhone 15 Pro, Mercedes C200).",
+    "SOFTWARE": "Bilgisayar programları, mobil uygulamalar, yapay zeka sistemleri, işletim sistemleri.",
+    "ORG_SUB": "Şirket birimleri, üniversite fakülteleri, dernek şubeleri gibi büyük bir kurumun alt birimleri.",
+    "LANGUAGE": "Dillerin adı (Örn: İngilizce, Arapça).",
+    "TITLE": "Kişinin unvanı, rütbesini veya pozisyonunu (Örn: Profesör, General, Başkan).",
+    "CYBER": "URL, E-posta adresi, IP adresi, hashtag veya kullanıcı adı.",
+    # MISC: Kalan her şey
+    "MISC": "Diğer adlandırılmış varlıklar (LLM tarafından rafine edilemeyen veya uymayanlar)."
+}
+# --- Gradio Arayüzü Fonksiyonu (Düzeltilmiş ve Birleştirilmiş) ---
+def process_ner_request(text, progress=gr.Progress()):
     """
     Gradio arayüzünden çağrılan ana fonksiyondur.
     advanced_ner_pipeline'dan gelen logları ve sonuçları HTML olarak biçimlendirir.
     all_logs = []
     final_results = None
+    for logs_step, results_step in advanced_ner_pipeline(text, custom_label_definitions, progress=progress):
+        all_logs = logs_step # Her adımda güncel logları al
         if results_step is not None:
             final_results = results_step
         # --- Geçici Log Çıktısı Oluşturma ---
         log_output_html = "<div style='max-height: 200px; overflow-y: scroll; border: 1px solid #eee; padding: 10px; margin-bottom: 10px; background-color: #f9f9f9; border-radius: 8px; font-family: monospace; font-size: 12px;'>"
         for log in all_logs:
+            # Stil iyileştirmeleri
             color = 'blue' if '✅' in log else ('orange' if '⚠️' in log else ('red' if '❌' in log else 'black'))
             log_output_html += f"<p style='margin: 0; color: {color};'>{log.replace('   ', '&nbsp;&nbsp;&nbsp;')}</p>"
         log_output_html += "</div>"
         # --- Geçici/Nihai Sonuç Tablosu Oluşturma ---
         current_results_html = ""
+        if final_results: # Eğer sonuç listesi boş değilse tabloyu oluştur
+            # Tailwind benzeri sınıflar kullanarak basit bir tablo oluştur
             current_results_html = """
             <style>
                 .ner-table {
+                    width:100%;
+                    border-collapse: collapse;
+                    font-family: Arial, sans-serif;
+                    border-radius: 8px;
+                    overflow: hidden;
+                    box-shadow: 0 4px 6px rgba(0,0,0,0.1);
                 }
                 .ner-table th, .ner-table td {
+                    padding: 12px 15px;
+                    text-align: left;
+                    border-bottom: 1px solid #ddd;
                 }
                 .ner-table th {
+                    background-color: #3b82f6; /* Tailwind blue-500 */
+                    color: white;
+                    font-weight: bold;
+                    text-transform: uppercase;
                 }
                 .ner-table tr:nth-child(even) {
+                    background-color: #f3f4f6; /* Tailwind gray-100 */
                 }
                 .ner-table tr:hover {
+                    background-color: #e5e7eb; /* Tailwind gray-200 */
                 }
                 .tooltip-text {
+                    visibility: hidden;
+                    background-color: #333;
+                    color: #fff;
+                    text-align: center;
+                    border-radius: 6px;
+                    padding: 5px 10px;
+                    position: absolute;
+                    z-index: 1;
+                    bottom: 125%; /* Üstte göster */
+                    left: 50%;
+                    transform: translateX(-50%);
+                    opacity: 0;
+                    transition: opacity 0.3s;
+                    width: 300px;
+                    font-size: 11px;
+                    line-height: 1.4;
                 }
                 .tooltip-container:hover .tooltip-text {
+                    visibility: visible;
+                    opacity: 1;
                 }
                 .tooltip-container {
+                    position: relative;
+                    display: inline-block;
                 }
             </style>
             <table class='ner-table'>\n"""
             current_results_html += "  <tr>\n"
             current_results_html += "    <th>VARLIK</th>\n"
             current_results_html += "    <th>İLK ETİKET</th>\n"
+            current_results_html += "    <th>İLK TAHMİN SKORU</th>\n" # YENİ SÜTUN
             current_results_html += "    <th>RAG SONRASI ETİKETİ (GEREKÇE)</th>\n"
             current_results_html += "    <th>KAYNAK</th>\n"
             current_results_html += "  </tr>\n"
             for item in final_results:
+                # Etiket renklendirmesi için basit bir mantık (23 etiket için rastgele renkler atandı)
                 color_map = {
                     "PER": "background-color: #f8c291;", "LOC": "background-color: #a2c4c9;", "ORG": "background-color: #b3c99f;",
+                    "MISC": "background-color: #fef08a;",
+                    "DATE": "background-color: #e5ccff;", "TIME": "background-color: #d1d5db;", "MONEY": "background-color: #fcd34d;",
+                    "QUANTITY": "background-color: #bfdbfe;", "PERCENT": "background-color: #99f6e4;", "NORP": "background-color: #fbcfe8;",
+                    "LAW": "background-color: #f0abfc;", "EVENT": "background-color: #a7f3d0;", "BOOK": "background-color: #ffedd5;",
+                    "MOVIE": "background-color: #c7d2fe;", "SONG": "background-color: #e9d5ff;", "ART": "background-color: #bae6fd;",
+                    "AWARD": "background-color: #fee2e2;", "PRODUCT": "background-color: #ffc999;", "SOFTWARE": "background-color: #d1fae5;",
+                    "ORG_SUB": "background-color: #ccfbf1;", "LANGUAGE": "background-color: #fef9c3;", "TITLE": "background-color: #fecaca;",
+                    "CYBER": "background-color: #dbeafe;"
                 }
                 final_label_style = color_map.get(item['final_label'], "")
+                # CoT gerekçesini bir tooltip olarak ekleme
                 reasoning_tooltip = ""
                 if item.get("reasoning"):
+                    # Gerekçe varsa tooltip'i oluştur
                     reasoning_tooltip = f"""
                         <div class='tooltip-container'>
                             {item['final_label']}
                 else:
                     reasoning_tooltip = item['final_label']
+                # Skoru formatla
                 score_formatted = f"{item['initial_score'] * 100:.2f}%"
+                # Skorun rengini güven seviyesine göre ayarlama (Yüksek skor=Yeşil, Düşük skor=Turuncu/Kırmızı)
+                score_color = ""
+                if item['initial_score'] > 0.95:
+                    score_color = "color: #10b981;" # Yeşil
+                elif item['initial_score'] > 0.8:
+                    score_color = "color: #f59e0b;" # Sarı/Turuncu
+                else:
+                    score_color = "color: #ef4444;" # Kırmızı
                 current_results_html += "  <tr>\n"
                 current_results_html += f"    <td>{item['entity']}</td>\n"
                 current_results_html += f"    <td>{item['initial_label']}</td>\n"
+                current_results_html += f"    <td style='{score_color} font-weight: bold;'>{score_formatted}</td>\n" # YENİ SKOR SÜTUNU
                 current_results_html += f"    <td style='{final_label_style}'>{reasoning_tooltip}</td>\n"
                 current_results_html += f"    <td>{item['source']}</td>\n"
                 current_results_html += "  </tr>\n"
             current_results_html += "</table>"
+        # Gradio'ya logları ve sonuç tablosunu gönder (her adımda güncelleyin)
         yield log_output_html, current_results_html
 # --- Gradio Arayüzünü Tanımla ---
 iface = gr.Interface(
     fn=process_ner_request,
+    inputs=gr.Textbox(lines=5, placeholder="Metin giriniz...", label="Giriş Metni"),
+    # Çıktı olarak 2 ayrı HTML bileşeni döndürülmeli.
+    outputs=[gr.HTML(label="İşlem Logları"), gr.HTML(label="Zenginleştirilmiş NER Sonuçları")],
+    title="Gelişmiş İnce Taneli NER (23 Etiket - RAG/LLM Destekli)",
+    description="Metindeki varlıkları tanır ve MISC etiketlileri, 23 ince taneli kategoriye dönüştürmek için Wikipedia (RAG) ve LLM (Qwen2.5-1.5B) kullanılmaktadır. İlk modelin tahmin skorları da artık tabloda yer almaktadır.",
     examples=[
+        # Yeni etiketleri test eden örnekler eklendi
         ["Milli Eğitim Bakanlığı'na bağlı Lise Birimleri, 2024 Türkiye Kupası etkinliğine katılacak ve %15 indirim uygulayacak."],
         ["General Vural, Türkçe dilini kullanan Türk askerlerini, https://example.com üzerinden uyardı. 'Hürriyet Kasidesi' eserini okudu."],
         ["Windows 11 işletim sistemi, 1000 TL karşılığında satışa sunulmuştur. 'Cumhurbaşkanı' unvanına sahip kişi, Kanun maddesini değiştirdi."],
 # --- Gradio Uygulamasını Başlat ---
 if __name__ == "__main__":
+    # Eğer port belirlenmemişse, varsayılan 7860 kullanılır.
     port = int(os.environ.get('PORT', 7860))
     iface.launch(share=False, server_port=port)