Spaces:

apak
/

MISC_NER

Running

App Files Files Community

apak commited on 8 days ago

Commit

e5196f4

verified ·

1 Parent(s): eed7a19

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -4

app.py CHANGED Viewed

@@ -184,6 +184,8 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
     log_messages = list(_initial_logs)
     try:
         initial_results = ner_pipe(text)
     except Exception as e:
         log_messages.append(f"❌ Hata: Temel NER modelinde sorun oluştu: {e}")
@@ -202,6 +204,8 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
     for i, entity in enumerate(initial_results):
         word = entity['word']
         label = entity['entity_group']
         # Gradio ilerleme çubuğunu güncelle
         current_progress = (i + 1) / total_entities
@@ -211,15 +215,17 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
         result_obj = {
             "entity": word,
             "initial_label": label,
             "final_label": label,
             "source": "Model",
             "reasoning": "" # CoT gerekçesi için yeni alan
         }
         # Eğer etiket MISC ise RAG sürecini başlat
         if label == "MISC" and gen_pipe is not None:
             standardized_word = word.title()
-            log_messages.append(f"   ⚠️ MISC tespit edildi: '{word}'. Wikipedia'ya soruluyor...")
             yield log_messages, None # Log mesajını gönder (2 değer)
             wiki_context = get_wiki_summary(standardized_word)
@@ -243,7 +249,7 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
                 log_messages.append("   ❌ Wiki'de bilgi bulunamadı, MISC olarak kalıyor.")
                 yield log_messages, None # Log mesajını gönder (2 değer)
         else:
-            log_messages.append(f"   ✅ {word} için etiket: {label}")
             yield log_messages, None # Log mesajını gönder (2 değer)
         final_results.append(result_obj)
@@ -276,7 +282,7 @@ custom_label_definitions = {
     "SOFTWARE": "Bilgisayar programları, mobil uygulamalar, yapay zeka sistemleri, işletim sistemleri.",
     "ORG_SUB": "Şirket birimleri, üniversite fakülteleri, dernek şubeleri gibi büyük bir kurumun alt birimleri.",
     "LANGUAGE": "Dillerin adı (Örn: İngilizce, Arapça).",
-    "TITLE": "Kişinin unvanı, rütbesi veya pozisyonu (Örn: Profesör, General, Başkan).",
     "CYBER": "URL, E-posta adresi, IP adresi, hashtag veya kullanıcı adı.",
     # MISC: Kalan her şey
     "MISC": "Diğer adlandırılmış varlıklar (LLM tarafından rafine edilemeyen veya uymayanlar)."
@@ -368,6 +374,7 @@ def process_ner_request(text, progress=gr.Progress()):
             current_results_html += "  <tr>\n"
             current_results_html += "    <th>VARLIK</th>\n"
             current_results_html += "    <th>İLK ETİKET</th>\n"
             current_results_html += "    <th>RAG SONRASI ETİKETİ (GEREKÇE)</th>\n"
             current_results_html += "    <th>KAYNAK</th>\n"
             current_results_html += "  </tr>\n"
@@ -401,10 +408,22 @@ def process_ner_request(text, progress=gr.Progress()):
                 else:
                     reasoning_tooltip = item['final_label']
                 current_results_html += "  <tr>\n"
                 current_results_html += f"    <td>{item['entity']}</td>\n"
                 current_results_html += f"    <td>{item['initial_label']}</td>\n"
                 current_results_html += f"    <td style='{final_label_style}'>{reasoning_tooltip}</td>\n"
                 current_results_html += f"    <td>{item['source']}</td>\n"
                 current_results_html += "  </tr>\n"
@@ -420,7 +439,7 @@ iface = gr.Interface(
     # Çıktı olarak 2 ayrı HTML bileşeni döndürülmeli.
     outputs=[gr.HTML(label="İşlem Logları"), gr.HTML(label="Zenginleştirilmiş NER Sonuçları")],
     title="Gelişmiş İnce Taneli NER (23 Etiket - RAG/LLM Destekli)",
-    description="Metindeki varlıkları tanır ve MISC etiketlileri, 23 ince taneli kategoriye dönüştürmek için Wikipedia (RAG) ve LLM (Qwen2.5-1.5B) kullanılmaktadır. Etiket seti, akademik çalışmalardan esinlenerek 23 özel kategoriye genişletilmiştir.",
     examples=[
         # Yeni etiketleri test eden örnekler eklendi
         ["Milli Eğitim Bakanlığı'na bağlı Lise Birimleri, 2024 Türkiye Kupası etkinliğine katılacak ve %15 indirim uygulayacak."],

     log_messages = list(_initial_logs)
     try:
+        # Not: aggregation_strategy="simple" kullanıldığı için, her birleştirilmiş varlığın
+        # tahmin skoru, en yüksek skorlu alt parçaya ait olacaktır.
         initial_results = ner_pipe(text)
     except Exception as e:
         log_messages.append(f"❌ Hata: Temel NER modelinde sorun oluştu: {e}")
     for i, entity in enumerate(initial_results):
         word = entity['word']
         label = entity['entity_group']
+        # YENİ: Tahmin skorunu yakala ve 4 ondalık basamağa yuvarla
+        score = entity['score']
         # Gradio ilerleme çubuğunu güncelle
         current_progress = (i + 1) / total_entities
         result_obj = {
             "entity": word,
             "initial_label": label,
+            "initial_score": score, # YENİ: Skoru ekle
             "final_label": label,
             "source": "Model",
             "reasoning": "" # CoT gerekçesi için yeni alan
         }
         # Eğer etiket MISC ise RAG sürecini başlat
+        # Ayrıca, skor ne kadar düşükse LLM'e olan ihtiyaç o kadar artar.
         if label == "MISC" and gen_pipe is not None:
             standardized_word = word.title()
+            log_messages.append(f"   ⚠️ MISC tespit edildi: '{word}' (Skor: {score:.2f}). Wikipedia'ya soruluyor...")
             yield log_messages, None # Log mesajını gönder (2 değer)
             wiki_context = get_wiki_summary(standardized_word)
                 log_messages.append("   ❌ Wiki'de bilgi bulunamadı, MISC olarak kalıyor.")
                 yield log_messages, None # Log mesajını gönder (2 değer)
         else:
+            log_messages.append(f"   ✅ {word} için etiket: {label} (Skor: {score:.2f})")
             yield log_messages, None # Log mesajını gönder (2 değer)
         final_results.append(result_obj)
     "SOFTWARE": "Bilgisayar programları, mobil uygulamalar, yapay zeka sistemleri, işletim sistemleri.",
     "ORG_SUB": "Şirket birimleri, üniversite fakülteleri, dernek şubeleri gibi büyük bir kurumun alt birimleri.",
     "LANGUAGE": "Dillerin adı (Örn: İngilizce, Arapça).",
+    "TITLE": "Kişinin unvanı, rütbesini veya pozisyonunu (Örn: Profesör, General, Başkan).",
     "CYBER": "URL, E-posta adresi, IP adresi, hashtag veya kullanıcı adı.",
     # MISC: Kalan her şey
     "MISC": "Diğer adlandırılmış varlıklar (LLM tarafından rafine edilemeyen veya uymayanlar)."
             current_results_html += "  <tr>\n"
             current_results_html += "    <th>VARLIK</th>\n"
             current_results_html += "    <th>İLK ETİKET</th>\n"
+            current_results_html += "    <th>İLK TAHMİN SKORU</th>\n" # YENİ SÜTUN
             current_results_html += "    <th>RAG SONRASI ETİKETİ (GEREKÇE)</th>\n"
             current_results_html += "    <th>KAYNAK</th>\n"
             current_results_html += "  </tr>\n"
                 else:
                     reasoning_tooltip = item['final_label']
+                # Skoru formatla
+                score_formatted = f"{item['initial_score'] * 100:.2f}%"
+                # Skorun rengini güven seviyesine göre ayarlama (Yüksek skor=Yeşil, Düşük skor=Turuncu/Kırmızı)
+                score_color = ""
+                if item['initial_score'] > 0.95:
+                    score_color = "color: #10b981;" # Yeşil
+                elif item['initial_score'] > 0.8:
+                    score_color = "color: #f59e0b;" # Sarı/Turuncu
+                else:
+                    score_color = "color: #ef4444;" # Kırmızı
                 current_results_html += "  <tr>\n"
                 current_results_html += f"    <td>{item['entity']}</td>\n"
                 current_results_html += f"    <td>{item['initial_label']}</td>\n"
+                current_results_html += f"    <td style='{score_color} font-weight: bold;'>{score_formatted}</td>\n" # YENİ SKOR SÜTUNU
                 current_results_html += f"    <td style='{final_label_style}'>{reasoning_tooltip}</td>\n"
                 current_results_html += f"    <td>{item['source']}</td>\n"
                 current_results_html += "  </tr>\n"
     # Çıktı olarak 2 ayrı HTML bileşeni döndürülmeli.
     outputs=[gr.HTML(label="İşlem Logları"), gr.HTML(label="Zenginleştirilmiş NER Sonuçları")],
     title="Gelişmiş İnce Taneli NER (23 Etiket - RAG/LLM Destekli)",
+    description="Metindeki varlıkları tanır ve MISC etiketlileri, 23 ince taneli kategoriye dönüştürmek için Wikipedia (RAG) ve LLM (Qwen2.5-1.5B) kullanılmaktadır. İlk modelin tahmin skorları da artık tabloda yer almaktadır.",
     examples=[
         # Yeni etiketleri test eden örnekler eklendi
         ["Milli Eğitim Bakanlığı'na bağlı Lise Birimleri, 2024 Türkiye Kupası etkinliğine katılacak ve %15 indirim uygulayacak."],