Spaces:

apak
/

MISC_NER

Sleeping

App Files Files Community

apak commited on 10 days ago

Commit

40f29ea

verified ·

1 Parent(s): faaf135

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -49

app.py CHANGED Viewed

@@ -4,9 +4,13 @@ from transformers import pipeline
 import gradio as gr
 import os
 # --- 1. İlk Tarama Modeli (Hızlı NER) ---
 # XLM-Roberta çok dillidir ve standart olarak PER, LOC, ORG, MISC etiketleri üretir.
-print("1. Standart NER Modeli yükleniyor...")
 # NER modelini yüklerken, cihazı açıkça belirterek Gradio'nun başlangıç aşamalarında oluşabilecek hataları azaltıyoruz.
 ner_pipe = pipeline(
     "ner",
@@ -16,7 +20,7 @@ ner_pipe = pipeline(
 )
 # --- 2. Akıl Yürütme Modeli (LLM - RAG Karar Verici) ---
-print("2. LLM (Karar Verici) yükleniyor...")
 model_id = "Qwen/Qwen2.5-1.5B-Instruct" # Türkçe yeteneği iyi ve hızlı
 llm_model_kwargs = {}
@@ -24,9 +28,9 @@ llm_model_kwargs = {}
 if torch.cuda.is_available():
     llm_model_kwargs["torch_dtype"] = torch.bfloat16
     llm_device_map = "auto"
-    print("CUDA desteği bulundu, model GPU üzerinde bfloat16 ile yüklenecek.")
 else:
-    print("CUDA desteği bulunamadı, model CPU üzerinde float32 ile yüklenecek.")
     llm_device_map = "cpu" # Açıkça CPU'ya ayarlandı
 try:
@@ -37,12 +41,12 @@ try:
         device_map=llm_device_map
     )
 except Exception as e:
-    print(f"❌ LLM yüklenirken bir hata oluştu (Muhtemelen Bellek Yetersizliği/OOM): {e}")
     # Olası bir çökme durumunu önlemek için alternatif bir çözüm ekleyin
     gen_pipe = None
-    print("LLM boru hattı devre dışı bırakıldı. Uygulama sadece temel NER yapacaktır.")
-print("✅ Modeller Hazır!")
 # --- Wikipedia Fonksiyonu ---
 wikipedia.set_lang("tr")
@@ -58,7 +62,7 @@ def get_wiki_summary(term):
     except wikipedia.exceptions.RedirectError:
         return None
     except Exception as e:
-        print(f"Wikipedia hatası: {e}")
         return None
 # --- LLM ile Etiket Rafine Etme Fonksiyonu ---
@@ -74,28 +78,30 @@ def refine_label_with_llm(entity_text, wiki_context, custom_label_definitions):
     # LLM için örnekler (Few-shot learning)
     # Yeni etiketleri kapsayacak şekilde örnekler güncellendi.
     few_shot_examples = """ÖRNEK 1 (NORP İÇİN):
 VARLIK: Türk
 BAĞLAM: Türkler, Türkiye Cumhuriyeti'nde yaşayan ve Türkçe konuşan büyük bir etnik gruptur. (NORP tanımı ile eşleşir.)
 SONUÇ: NORP
-ÖRNEK 2 (MOVIE İÇİN):
-VARLIK: Yüzüklerin Efendisi
-BAĞLAM: Peter Jackson tarafından yönetilmiş, 2001-2003 yılları arasında yayınlanan üç fantastik macera filminden oluşan seridir. (MOVIE tanımı ile eşleşir.)
-SONUÇ: MOVIE
 ÖRNEK 3 (EVENT İÇİN):
-VARLIK: Kurtuluş Savaşı
-BAĞLAM: Türkiye Cumhuriyeti'nin kurulmasına yol açan, 1919-1922 yılları arasında Türk ulusal güçlerinin işgalci devletlere karşı verdiği mücadeledir. (EVENT tanımı ile eşleşir.)
 SONUÇ: EVENT
     """
     prompt = f"""Sen uzman bir veri sınıflandırma sistemisin.
-Görevin, aşağıdaki BAĞLAM'ı okumak ve ETİKET TANIMLARI'ndan hangisinin varlığa en uygun olduğunu belirlemektir.
 Aşağıdaki adımları izle:
 1. BAĞLAM'ı analiz et.
 2. ETİKET TANIMLARI ile karşılaştır.
 3. BULDUĞUN EŞLEŞMEYİ VE SEÇİMİ ÇIKTI FORMATINA UYGUN OLARAK VER.
 {few_shot_examples}
@@ -115,7 +121,7 @@ Cevap: [SEÇİLEN ETİKET]
     # LLM çağrısı
     outputs = gen_pipe(
         messages,
-        max_new_tokens=50, # Yeterince kısa tutuldu
         do_sample=False,
         temperature=0.1
     )
@@ -134,9 +140,11 @@ Cevap: [SEÇİLEN ETİKET]
         if raw_label in valid_labels:
             final_label = raw_label
         else:
-            print(f"❌ Uyarı: LLM geçersiz etiket döndürdü: {raw_label}. MISC olarak ayarlandı.")
     except IndexError:
-        print(f"❌ Uyarı: LLM çıktı formatını bozdu. Ham çıktı: {full_output[:50]}...")
         final_label = "MISC"
     return final_label
@@ -147,7 +155,8 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
     Standart NER modelini çalıştırır, MISC etiketli varlıklar için
     Wikipedia ve LLM kullanarak zenginleştirme (RAG) yapar.
     """
-    log_messages = []
     try:
         initial_results = ner_pipe(text)
@@ -162,6 +171,7 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
     log_messages.append(f"🕵️‍♀️ Toplam {total_entities} varlık inceleniyor...")
     # İlk yield (2 değer)
     yield log_messages, None
     for i, entity in enumerate(initial_results):
@@ -211,18 +221,34 @@ def advanced_ner_pipeline(text, target_labels, progress=gr.Progress()):
     # Sonuçlar hazır olduğunda final_results'ı gönder
     yield log_messages, final_results # Nihai loglar ve sonuçlar (2 değer)
-# --- Özel Etiket Tanımları (Güncellendi) ---
 custom_label_definitions = {
-    "BOOK": "Yazılı veya basılı bir eser, yayınlanmış roman, ders kitabı, ansiklopedi.",
     "MOVIE": "Sinema filmi, dizi, belgesel gibi görsel-işitsel yapıt.",
     "SONG": "Müzik eseri, şarkı, beste veya albüm adı.",
-    "AWARD": "Bir başarı, katkı veya üstünlük karşılığında verilen ödül, madalya veya nişan. (Örnek: Nobel, Oscar, Altın Küre, Film Festivali Ödülü)",
-    "SOFTWARE": "Bilgisayar programları, mobil uygulamalar, yapay zeka sistemleri veya işletim sistemleri gibi dijital araçlar.",
-    "PRODUCT": "Ticari olarak satılan somut bir eşya, model, cihaz veya marka serisi. (Örnek: Araba modeli, telefon serisi)",
-    "NORP": "Milliyetler, dini veya politik gruplar. (Örnek: Türk, Hristiyan, Sosyalist Parti)",
-    "EVENT": "Tarihi olaylar, savaşlar, festivaller, spor turnuvaları, doğal afetler veya kurumsal etkinlikler.",
-    "LAW": "Resmi kanun, yönetmelik, anlaşma veya hukuki belge adı. (Örnek: TCK, AB Sözleşmesi)",
-    "ORG_SUB": "Şirket birimleri, dernek şubeleri, üniversite fakülteleri gibi büyük bir kurumun alt birimleri."
 }
 # --- Gradio Arayüzü Fonksiyonu (Düzeltilmiş ve Birleştirilmiş) ---
@@ -234,11 +260,9 @@ def process_ner_request(text, progress=gr.Progress()):
     all_logs = []
     final_results = None
-    # HATA GİDERİLDİ: advanced_ner_pipeline'dan sadece 2 değer (logs, results) bekleniyor.
     for logs_step, results_step in advanced_ner_pipeline(text, custom_label_definitions, progress=progress):
         all_logs = logs_step # Her adımda güncel logları al
-        # Sonuçlar (liste) boş değilse final_results'a ata
         if results_step is not None:
             final_results = results_step
@@ -291,19 +315,17 @@ def process_ner_request(text, progress=gr.Progress()):
             current_results_html += "    <th>KAYNAK</th>\n"
             current_results_html += "  </tr>\n"
             for item in final_results:
-                # Etiket renklendirmesi için basit bir mantık (Yeni etiketler eklendi)
                 color_map = {
-                    "MISC": "background-color: #fef08a; padding: 4px; border-radius: 4px;", # Yellow (Çeşitli)
-                    "SOFTWARE": "background-color: #d1fae5; padding: 4px; border-radius: 4px;", # Green (Yazılım)
-                    "AWARD": "background-color: #fee2e2; padding: 4px; border-radius: 4px;", # Red (Ödül)
-                    "MOVIE": "background-color: #c7d2fe; padding: 4px; border-radius: 4px;", # Indigo (Film)
-                    "PRODUCT": "background-color: #fbcfe8; padding: 4px; border-radius: 4px;", # Pink (Ürün)
-                    "NORP": "background-color: #bfdbfe; padding: 4px; border-radius: 4px;", # Light Blue (Grup/Milliyet)
-                    "BOOK": "background-color: #ffedd5; padding: 4px; border-radius: 4px;", # Light Orange (Kitap)
-                    "SONG": "background-color: #e9d5ff; padding: 4px; border-radius: 4px;", # Light Purple (Şarkı)
-                    "EVENT": "background-color: #a7f3d0; padding: 4px; border-radius: 4px;", # Teal (Etkinlik)
-                    "LAW": "background-color: #d1d5db; padding: 4px; border-radius: 4px;", # Gray (Hukuk)
-                    "ORG_SUB": "background-color: #ccfbf1; padding: 4px; border-radius: 4px;", # Cyan (Kurum Alt Birimi)
                 }
                 final_label_style = color_map.get(item['final_label'], "")
@@ -324,16 +346,14 @@ iface = gr.Interface(
     inputs=gr.Textbox(lines=5, placeholder="Metin giriniz...", label="Giriş Metni"),
     # Çıktı olarak 2 ayrı HTML bileşeni döndürülmeli.
     outputs=[gr.HTML(label="İşlem Logları"), gr.HTML(label="Zenginleştirilmiş NER Sonuçları")],
-    title="Gelişmiş İnce Taneli NER (RAG/LLM Destekli)",
-    description="Metindeki MISC etiketli varlıkları tanır ve özel kategorilere dönüştürmek için Wikipedia (RAG) ve LLM (Qwen2.5-1.5B) kullanılmaktadır. Etiket seti 10 özel kategoriye genişletilmiştir.",
     examples=[
         # Yeni etiketleri test eden örnekler eklendi
-        ["Milli Eğitim Bakanlığı'na bağlı Lise Birimleri, 2024 Türkiye Kupası etkinliğine katılacak."],
-        ["Türkiye Cumhuriyeti Anayasası'nda yapılan bu değişiklikler, 'Son Mektup' şarkısının telif haklarını etkiledi."],
-        ["Rus askerleri Yüzüklerin Efendisi filmini izlemiş ve NUTUK kitabını okumuş. Vedat Kara, Hababam Sınıfı, Altın Portakal ödülünü kazandı"],
-        ["Microsoft tarafından geliştirilen Windows 11 işletim sistemi, Macbook Pro cihazlarında çalıştırılamaz."]
     ],
-    # allow_flagging parametresi kaldırıldı.
     analytics_enabled=False
 )

 import gradio as gr
 import os
+# --- Global Log Listesini Tanımla ---
+# Başlangıçtaki model yükleme mesajlarını Gradio UI'a aktarmak için bu listeyi kullanıyoruz.
+_initial_logs = []
 # --- 1. İlk Tarama Modeli (Hızlı NER) ---
 # XLM-Roberta çok dillidir ve standart olarak PER, LOC, ORG, MISC etiketleri üretir.
+_initial_logs.append("1. Standart NER Modeli yükleniyor...")
 # NER modelini yüklerken, cihazı açıkça belirterek Gradio'nun başlangıç aşamalarında oluşabilecek hataları azaltıyoruz.
 ner_pipe = pipeline(
     "ner",
 )
 # --- 2. Akıl Yürütme Modeli (LLM - RAG Karar Verici) ---
+_initial_logs.append("2. LLM (Karar Verici) yükleniyor...")
 model_id = "Qwen/Qwen2.5-1.5B-Instruct" # Türkçe yeteneği iyi ve hızlı
 llm_model_kwargs = {}
 if torch.cuda.is_available():
     llm_model_kwargs["torch_dtype"] = torch.bfloat16
     llm_device_map = "auto"
+    _initial_logs.append("CUDA desteği bulundu, model GPU üzerinde bfloat16 ile yüklenecek.")
 else:
+    _initial_logs.append("CUDA desteği bulunamadı, model CPU üzerinde float32 ile yüklenecek.")
     llm_device_map = "cpu" # Açıkça CPU'ya ayarlandı
 try:
         device_map=llm_device_map
     )
 except Exception as e:
+    _initial_logs.append(f"❌ LLM yüklenirken bir hata oluştu (Muhtemelen Bellek Yetersizliği/OOM): {e}")
     # Olası bir çökme durumunu önlemek için alternatif bir çözüm ekleyin
     gen_pipe = None
+    _initial_logs.append("LLM boru hattı devre dışı bırakıldı. Uygulama sadece temel NER yapacaktır.")
+_initial_logs.append("✅ Modeller Hazır!")
 # --- Wikipedia Fonksiyonu ---
 wikipedia.set_lang("tr")
     except wikipedia.exceptions.RedirectError:
         return None
     except Exception as e:
+        # Bu loglar konsola düşer, ancak UI log akışına dahil edilmez.
         return None
 # --- LLM ile Etiket Rafine Etme Fonksiyonu ---
     # LLM için örnekler (Few-shot learning)
     # Yeni etiketleri kapsayacak şekilde örnekler güncellendi.
+    # LLM'in bu kadar çok etiket arasından doğru olanı bulması için iyi örnekler şart.
     few_shot_examples = """ÖRNEK 1 (NORP İÇİN):
 VARLIK: Türk
 BAĞLAM: Türkler, Türkiye Cumhuriyeti'nde yaşayan ve Türkçe konuşan büyük bir etnik gruptur. (NORP tanımı ile eşleşir.)
 SONUÇ: NORP
+ÖRNEK 2 (TITLE İÇİN):
+VARLIK: General
+BAĞLAM: Birçok orduda yüksek rütbeli bir subay unvanıdır. Türkiye'de en yüksek rütbelerden biridir. (TITLE tanımı ile eşleşir.)
+SONUÇ: TITLE
 ÖRNEK 3 (EVENT İÇİN):
+VARLIK: İstanbul Film Festivali
+BAĞLAM: Her yıl Nisan ayında İstanbul'da düzenlenen uluslararası film festivalidir. Türkiye'nin en eski ve prestijli film etkinliklerinden biridir. (EVENT tanımı ile eşleşir.)
 SONUÇ: EVENT
     """
     prompt = f"""Sen uzman bir veri sınıflandırma sistemisin.
+Görevin, aşağıdaki BAĞLAM'ı okumak ve ETİKET TANIMLARI'ndan (MISC etiketini göz ardı et) hangisinin varlığa en uygun olduğunu belirlemektir.
 Aşağıdaki adımları izle:
 1. BAĞLAM'ı analiz et.
 2. ETİKET TANIMLARI ile karşılaştır.
 3. BULDUĞUN EŞLEŞMEYİ VE SEÇİMİ ÇIKTI FORMATINA UYGUN OLARAK VER.
+Eğer tanımlardan hiçbiri uymuyorsa Cevap: MISC olarak döndür.
 {few_shot_examples}
     # LLM çağrısı
     outputs = gen_pipe(
         messages,
+        max_new_tokens=60, # Daha fazla etiket arasında ayrım için token sayısını artırdık.
         do_sample=False,
         temperature=0.1
     )
         if raw_label in valid_labels:
             final_label = raw_label
         else:
+            # LLM'in konsol loglarını kaldırdık
+            pass
     except IndexError:
+        # LLM'in konsol loglarını kaldırdık
+        pass
         final_label = "MISC"
     return final_label
     Standart NER modelini çalıştırır, MISC etiketli varlıklar için
     Wikipedia ve LLM kullanarak zenginleştirme (RAG) yapar.
     """
+    # İlk adımda, global başlangıç loglarını log_messages'a ekle.
+    log_messages = list(_initial_logs)
     try:
         initial_results = ner_pipe(text)
     log_messages.append(f"🕵️‍♀️ Toplam {total_entities} varlık inceleniyor...")
     # İlk yield (2 değer)
+    # Bu, model yükleme loglarını Gradio arayüzüne ilk kez gönderir.
     yield log_messages, None
     for i, entity in enumerate(initial_results):
     # Sonuçlar hazır olduğunda final_results'ı gönder
     yield log_messages, final_results # Nihai loglar ve sonuçlar (2 değer)
+# --- Özel Etiket Tanımları (23 Etikete Genişletildi) ---
 custom_label_definitions = {
+    # Standart CoNLL-2003 etiketleri (LLM tarafından rafine edilmez, ancak sonuçta görünür)
+    "PER": "Kişi adları, takma adlar, ünlüler.",
+    "ORG": "Şirketler, kurumlar, hükümet kuruluşları.",
+    "LOC": "Coğrafi yerler, siyasi bölgeler, binalar.",
+    # MISC içinden rafine edilecek ince taneli etiketler (Toplam 19 adet)
+    "DATE": "Mutlak veya göreceli tarih ifadeleri (yıl, ay, gün).",
+    "TIME": "Günün saati, zaman aralığı.",
+    "MONEY": "Parasal değerler, para birimleri.",
+    "QUANTITY": "Ağırlık, uzunluk, hacim gibi ölçü birimleri ve sayısal değerler.",
+    "PERCENT": "Yüzdelik ifadeler.",
+    "NORP": "Milliyetler, etnik, dini veya politik gruplar.",
+    "LAW": "Resmi kanun, yasa, yönetmelik veya hukuki belge adı.",
+    "EVENT": "Savaşlar, festivaller, spor turnuvaları, doğal afetler veya kurumsal etkinlikler.",
+    "BOOK": "Yazılı veya basılı bir eser, yayınlanmış roman, ders kitabı.",
     "MOVIE": "Sinema filmi, dizi, belgesel gibi görsel-işitsel yapıt.",
     "SONG": "Müzik eseri, şarkı, beste veya albüm adı.",
+    "ART": "Resim, heykel, spesifik mimari eser adı (Örn: Mona Lisa).",
+    "AWARD": "Ödül, madalya veya nişan adı (Örn: Nobel, Oscar).",
+    "PRODUCT": "Ticari olarak satılan somut bir eşya, model, cihaz veya marka serisi (Örn: iPhone 15 Pro, Mercedes C200).",
+    "SOFTWARE": "Bilgisayar programları, mobil uygulamalar, yapay zeka sistemleri, işletim sistemleri.",
+    "ORG_SUB": "Şirket birimleri, üniversite fakülteleri, dernek şubeleri gibi büyük bir kurumun alt birimleri.",
+    "LANGUAGE": "Dillerin adı (Örn: İngilizce, Arapça).",
+    "TITLE": "Kişinin unvanı, rütbesi veya pozisyonu (Örn: Profesör, General, Başkan).",
+    "CYBER": "URL, E-posta adresi, IP adresi, hashtag veya kullanıcı adı.",
+    # MISC: Kalan her şey
+    "MISC": "Diğer adlandırılmış varlıklar (LLM tarafından rafine edilemeyen veya uymayanlar)."
 }
 # --- Gradio Arayüzü Fonksiyonu (Düzeltilmiş ve Birleştirilmiş) ---
     all_logs = []
     final_results = None
     for logs_step, results_step in advanced_ner_pipeline(text, custom_label_definitions, progress=progress):
         all_logs = logs_step # Her adımda güncel logları al
         if results_step is not None:
             final_results = results_step
             current_results_html += "    <th>KAYNAK</th>\n"
             current_results_html += "  </tr>\n"
             for item in final_results:
+                # Etiket renklendirmesi için basit bir mantık (23 etiket için rastgele renkler atandı)
                 color_map = {
+                    "PER": "background-color: #f8c291;", "LOC": "background-color: #a2c4c9;", "ORG": "background-color: #b3c99f;",
+                    "MISC": "background-color: #fef08a;",
+                    "DATE": "background-color: #e5ccff;", "TIME": "background-color: #d1d5db;", "MONEY": "background-color: #fcd34d;",
+                    "QUANTITY": "background-color: #bfdbfe;", "PERCENT": "background-color: #99f6e4;", "NORP": "background-color: #fbcfe8;",
+                    "LAW": "background-color: #f0abfc;", "EVENT": "background-color: #a7f3d0;", "BOOK": "background-color: #ffedd5;",
+                    "MOVIE": "background-color: #c7d2fe;", "SONG": "background-color: #e9d5ff;", "ART": "background-color: #bae6fd;",
+                    "AWARD": "background-color: #fee2e2;", "PRODUCT": "background-color: #ffc999;", "SOFTWARE": "background-color: #d1fae5;",
+                    "ORG_SUB": "background-color: #ccfbf1;", "LANGUAGE": "background-color: #fef9c3;", "TITLE": "background-color: #fecaca;",
+                    "CYBER": "background-color: #dbeafe;"
                 }
                 final_label_style = color_map.get(item['final_label'], "")
     inputs=gr.Textbox(lines=5, placeholder="Metin giriniz...", label="Giriş Metni"),
     # Çıktı olarak 2 ayrı HTML bileşeni döndürülmeli.
     outputs=[gr.HTML(label="İşlem Logları"), gr.HTML(label="Zenginleştirilmiş NER Sonuçları")],
+    title="Gelişmiş İnce Taneli NER (23 Etiket - RAG/LLM Destekli)",
+    description="Metindeki varlıkları tanır ve MISC etiketlileri, 23 ince taneli kategoriye dönüştürmek için Wikipedia (RAG) ve LLM (Qwen2.5-1.5B) kullanılmaktadır. Etiket seti, akademik çalışmalardan esinlenerek 23 özel kategoriye genişletilmiştir.",
     examples=[
         # Yeni etiketleri test eden örnekler eklendi
+        ["Milli Eğitim Bakanlığı'na bağlı Lise Birimleri, 2024 Türkiye Kupası etkinliğine katılacak ve %15 indirim uygulayacak."],
+        ["General Vural, Türkçe dilini kullanan Türk askerlerini, https://example.com üzerinden uyardı. 'Hürriyet Kasidesi' eserini okudu."],
+        ["Windows 11 işletim sistemi, 1000 TL karşılığında satışa sunulmuştur. 'Cumhurbaşkanı' unvanına sahip kişi, Kanun maddesini değiştirdi."],
     ],
     analytics_enabled=False
 )