Spaces:

AlserFurma
/

LipSyncAI

Running

App Files Files Community

AlserFurma commited on 17 days ago

Commit

6270461

verified ·

1 Parent(s): 64354df

Update app.py

Browse files

Files changed (1) hide show

app.py +61 -90

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# Полная обновлённая версия app.py с двухшаговым интерактивным уроком (короткая реакция на казахском)
 import gradio as gr
 import os
@@ -34,7 +34,7 @@ try:
         device=0 if device == "cuda" else -1
     )
-    # Модель для генерации вопросов (text2text)
     qa_model = pipeline(
         "text2text-generation",
         model="google/flan-t5-small",
@@ -55,7 +55,8 @@ def generate_quiz(text: str):
     """Генерирует один вопрос и два варианта (correct, wrong) на русском языке."""
     prompt = (
         "Сгенерируй один учебный вопрос по этому тексту и дай 1 правильный и 1 неправильный вариант ответа. "
-        "Формат вывода (разделять переносами строки): QUESTION: ... CORRECT: ... WRONG: ... TEXT: " + text
     )
     try:
         out = qa_model(prompt, max_length=200)[0]["generated_text"]
@@ -65,8 +66,9 @@ def generate_quiz(text: str):
     question = ""
     correct = ""
     wrong = ""
-    for line in out.split('
-'):
         if line.upper().startswith("QUESTION:"):
             question = line.split(':', 1)[1].strip()
         elif line.upper().startswith("CORRECT:"):
@@ -75,7 +77,6 @@ def generate_quiz(text: str):
             wrong = line.split(':', 1)[1].strip()
     if not (question and correct and wrong):
-        # Попытка более простого разбора
         parts = out.split('CORRECT:')
         if len(parts) > 1:
             qpart = parts[0]
@@ -87,7 +88,7 @@ def generate_quiz(text: str):
                 wrong = wrong.strip()
     if not (question and correct and wrong):
-        raise ValueError('Модель не смогла корректно сгенерировать вопрос/варианты')
     options = [correct, wrong]
     random.shuffle(options)
@@ -95,8 +96,7 @@ def generate_quiz(text: str):
 def synthesize_audio(text_ru: str):
-    """Переводит русскую строку на казахский, синтезирует аудио и возвращает путь к файлу .wav"""
-    # Переводим на казахский
     translation = translator(text_ru, src_lang="rus_Cyrl", tgt_lang="kaz_Cyrl")
     text_kk = translation[0]["translation_text"]
@@ -111,14 +111,13 @@ def synthesize_audio(text_ru: str):
     audio = (waveform * 32767).astype('int16')
     sampling_rate = getattr(tts_model.config, 'sampling_rate', 22050)
-    tmpf = tempfile.NamedTemporaryFile(suffix='.wav', delete=False)
     wavfile.write(tmpf.name, sampling_rate, audio)
     tmpf.close()
     return tmpf.name
 def make_talking_head(image_path: str, audio_path: str):
-    """Вызывает SkyReels/Talking Head space и возвращает путь или объект с видео."""
     client = Client(TALKING_HEAD_SPACE)
     try:
         result = client.predict(
@@ -129,80 +128,64 @@ def make_talking_head(image_path: str, audio_path: str):
             api_name="/process_image_audio"
         )
     except Exception as e:
-        raise RuntimeError(f"Ошибка вызова Talking Head API: {e}")
     video_path = None
     if isinstance(result, tuple) and len(result) > 0:
         video_data = result[0]
-    elif isinstance(result, dict):
-        video_data = result
     else:
         video_data = result
     if isinstance(video_data, dict):
-        video_path = video_data.get('video') or video_data.get('path') or video_data.get('file')
     elif isinstance(video_data, str):
         video_path = video_data
     if not video_path:
-        raise ValueError('API не вернул путь к видео')
     return video_path
 # =========================
-# Основные обработчики для Gradio
 # =========================
 def start_lesson(image: Image.Image, text: str, state):
-    """Шаг 1: генерируем видео-лекцию с вопросом и вариантами ответа.
-    Возвращаем видео, текст вопроса, два варианта и сохраняем правильный ответ + путь к изображению в state."""
-    if image is None:
-        return None, "", [], [], state
-    if not text or not text.strip():
-        return None, "", [], [], state
-    if len(text) > 500:
         return None, "", [], [], state
     try:
-        # 1) Генерация вопроса
         question, options, correct = generate_quiz(text)
-        # 2) Подготовить текст, который лектор произнесёт (вопрос + варианты)
         quiz_ru = f"Вопрос: {question} Варианты: 1) {options[0]} 2) {options[1]}"
-        # 3) Синтез аудио для вопроса (на казахском внутри функции synthesize_audio)
         audio_path = synthesize_audio(quiz_ru)
-        # 4) Сохранение фото во временный файл (чтобы передать в Talking Head API)
-        tmpimg = tempfile.NamedTemporaryFile(suffix='.png', delete=False)
-        if image.mode != 'RGB':
-            image = image.convert('RGB')
         image.save(tmpimg.name)
         tmpimg.close()
         image_path = tmpimg.name
-        # 5) Генерация видео через Talking Head
         video_path = make_talking_head(image_path, audio_path)
-        # 6) Сохраняем в state необходимые значения (image_path и correct ответ)
         state_data = {
-            'image_path': image_path,
-            'correct': correct,
-            'options': options
         }
-        # 7) Сообщение состояния: вернём question и варианты в RU для отображения
-        question_display = question
-        # Удалим audio временный файл (видео уже сгенерировано)
-        try:
-            if os.path.exists(audio_path):
-                os.remove(audio_path)
-        except:
-            pass
-        return video_path, question_display, options, state_data, state_data
     except Exception as e:
         traceback.print_exc()
@@ -210,38 +193,26 @@ def start_lesson(image: Image.Image, text: str, state):
 def answer_selected(selected_option: str, state):
-    """Шаг 2: пользователь выбирает вариант — генерируем реакцию лектора (короткая на казахском).
-    state должен содержать image_path и correct ответ."""
     if not state:
-        return None, "Ошибка: отсутствует состояние урока. Сначала нажмите 'Запустить урок'."
-    try:
-        correct = state.get('correct')
-        image_path = state.get('image_path')
-        options = state.get('options', [])
-        if selected_option not in options:
-            # Иногда selected comes as index or value; try to handle
-            pass
         if selected_option == correct:
-            reaction_ru = "Молодец!"  # короткая реакция на русском — переведём на казахский в synthesize_audio
-            display_message = "Дұрыс!"  # сообщение для интерфейса (можно сразу на казахском)
         else:
             reaction_ru = f"Неправильно. Правильный ответ: {correct}"
             display_message = f"Қате. Дұрыс жауап: {correct}"
-        # Синтезируем реакцию (на казахском внутри)
         audio_path = synthesize_audio(reaction_ru)
-        # Генерируем видео-реакцию с тем же изображением
         reaction_video = make_talking_head(image_path, audio_path)
-        # Удаляем временный audio
-        try:
-            if os.path.exists(audio_path):
-                os.remove(audio_path)
-        except:
-            pass
         return reaction_video, display_message
@@ -251,50 +222,50 @@ def answer_selected(selected_option: str, state):
 # =========================
-# Gradio UI (двухшаговый)
 # =========================
 title = "🎓 Интерактивный бейне-лектор"
 description = (
-    "Загрузите фото лектора и текст лекции (орыс тілінде, до 500 символов).
-"
-    "Система создаст видео-лектора, задаст вопрос и предложит 2 варианта ответа.
-"
-    "Нажмите на один из вариантов — лектор коротко отреагирует (қазақша)."
 )
 with gr.Blocks() as demo:
-    gr.Markdown(f"# {title}
-{description}")
     with gr.Row():
         with gr.Column(scale=1):
-            inp_image = gr.Image(type='pil', label='📸 Фото лектора')
-            inp_text = gr.Textbox(lines=5, label='📝 Текст лекции (рус.)', placeholder='Введите текст...')
             btn_start = gr.Button("Запустить урок")
         with gr.Column(scale=1):
-            out_video = gr.Video(label='🎬 Видео лектора')
-            out_question = gr.Markdown(label='Вопрос')
-            # Кнопки для двух вариантов; изначально пустые
             btn_opt1 = gr.Button("Вариант 1")
             btn_opt2 = gr.Button("Вариант 2")
-            out_reaction_video = gr.Video(label='🎥 Реакция лектора')
-            out_status = gr.Textbox(label='ℹ️ Статус', interactive=False)
-    # State для хранения данных между шагами
     lesson_state = gr.State({})
-    # Привязки
-    btn_start.click(fn=start_lesson, inputs=[inp_image, inp_text, lesson_state], outputs=[out_video, out_question, btn_opt1, btn_opt2, lesson_state])
-    # Когда пользователь нажимает один из вариантов, вызываем answer_selected
-    btn_opt1.click(fn=answer_selected, inputs=[btn_opt1, lesson_state], outputs=[out_reaction_video, out_status])
-    btn_opt2.click(fn=answer_selected, inputs=[btn_opt2, lesson_state], outputs=[out_reaction_video, out_status])
-    # Небольшая подсказка при запуске
     demo.load(lambda: "Готово", outputs=out_status)
-if __name__ == '__main__':
     demo.launch()

+# Полная исправленная версия app.py
 import gradio as gr
 import os
         device=0 if device == "cuda" else -1
     )
+    # Модель генерации вопросов
     qa_model = pipeline(
         "text2text-generation",
         model="google/flan-t5-small",
     """Генерирует один вопрос и два варианта (correct, wrong) на русском языке."""
     prompt = (
         "Сгенерируй один учебный вопрос по этому тексту и дай 1 правильный и 1 неправильный вариант ответа. "
+        "Формат вывода (разделять переносами строки): "
+        "QUESTION: ...\nCORRECT: ...\nWRONG: ...\nTEXT: " + text
     )
     try:
         out = qa_model(prompt, max_length=200)[0]["generated_text"]
     question = ""
     correct = ""
     wrong = ""
+    # ИСПРАВЛЕНО: корректное split('\n')
+    for line in out.split('\n'):
         if line.upper().startswith("QUESTION:"):
             question = line.split(':', 1)[1].strip()
         elif line.upper().startswith("CORRECT:"):
             wrong = line.split(':', 1)[1].strip()
     if not (question and correct and wrong):
         parts = out.split('CORRECT:')
         if len(parts) > 1:
             qpart = parts[0]
                 wrong = wrong.strip()
     if not (question and correct and wrong):
+        raise ValueError("Модель не смогла корректно сгенерировать вопрос/варианты")
     options = [correct, wrong]
     random.shuffle(options)
 def synthesize_audio(text_ru: str):
+    """Переводит русскую строку на казахский, синтезирует аудио и возвращает путь к файлу."""
     translation = translator(text_ru, src_lang="rus_Cyrl", tgt_lang="kaz_Cyrl")
     text_kk = translation[0]["translation_text"]
     audio = (waveform * 32767).astype('int16')
     sampling_rate = getattr(tts_model.config, 'sampling_rate', 22050)
+    tmpf = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
     wavfile.write(tmpf.name, sampling_rate, audio)
     tmpf.close()
     return tmpf.name
 def make_talking_head(image_path: str, audio_path: str):
     client = Client(TALKING_HEAD_SPACE)
     try:
         result = client.predict(
             api_name="/process_image_audio"
         )
     except Exception as e:
+        raise RuntimeError(f"Ошибка Talking Head API: {e}")
     video_path = None
     if isinstance(result, tuple) and len(result) > 0:
         video_data = result[0]
     else:
         video_data = result
     if isinstance(video_data, dict):
+        video_path = video_data.get("video") or video_data.get("path") or video_data.get("file")
     elif isinstance(video_data, str):
         video_path = video_data
     if not video_path:
+        raise ValueError("API не вернул путь к видео")
     return video_path
 # =========================
+# Логика Gradio
 # =========================
 def start_lesson(image: Image.Image, text: str, state):
+    if image is None or not text or not text.strip() or len(text) > 500:
         return None, "", [], [], state
     try:
+        # Генерируем вопрос
         question, options, correct = generate_quiz(text)
         quiz_ru = f"Вопрос: {question} Варианты: 1) {options[0]} 2) {options[1]}"
         audio_path = synthesize_audio(quiz_ru)
+        # Сохраняем изображение
+        tmpimg = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
+        if image.mode != "RGB":
+            image = image.convert("RGB")
         image.save(tmpimg.name)
         tmpimg.close()
         image_path = tmpimg.name
         video_path = make_talking_head(image_path, audio_path)
+        # Стейт
         state_data = {
+            "image_path": image_path,
+            "correct": correct,
+            "options": options
         }
+        # Удаляем аудио
+        if os.path.exists(audio_path):
+            os.remove(audio_path)
+        return video_path, question, options, state_data, state_data
     except Exception as e:
         traceback.print_exc()
 def answer_selected(selected_option: str, state):
     if not state:
+        return None, "Ошибка: нет состояния. Нажмите 'Запустить урок'."
+    try:
+        correct = state.get("correct")
+        image_path = state.get("image_path")
+        options = state.get("options", [])
         if selected_option == correct:
+            reaction_ru = "Молодец!"
+            display_message = "Дұрыс!"
         else:
             reaction_ru = f"Неправильно. Правильный ответ: {correct}"
             display_message = f"Қате. Дұрыс жауап: {correct}"
         audio_path = synthesize_audio(reaction_ru)
         reaction_video = make_talking_head(image_path, audio_path)
+        if os.path.exists(audio_path):
+            os.remove(audio_path)
         return reaction_video, display_message
 # =========================
+# Интерфейс Gradio
 # =========================
 title = "🎓 Интерактивный бейне-лектор"
 description = (
+    "Загрузите фото лектора и текст лекции (рус., до 500 символов).<br>"
+    "Система создаст видео-лектора, задаст вопрос и предложит 2 варианта ответа.<br>"
+    "После выбора варианта — лектор коротко ответит по-казахски."
 )
 with gr.Blocks() as demo:
+    gr.Markdown(f"# {title}<br>{description}")
     with gr.Row():
         with gr.Column(scale=1):
+            inp_image = gr.Image(type='pil', label="📸 Фото лектора")
+            inp_text = gr.Textbox(lines=5, label="📝 Текст лекции (рус.)")
             btn_start = gr.Button("Запустить урок")
         with gr.Column(scale=1):
+            out_video = gr.Video(label="🎬 Видео лектора")
+            out_question = gr.Markdown(label="Вопрос")
             btn_opt1 = gr.Button("Вариант 1")
             btn_opt2 = gr.Button("Вариант 2")
+            out_reaction_video = gr.Video(label="🎥 Реакция лектора")
+            out_status = gr.Textbox(label="ℹ️ Статус", interactive=False)
     lesson_state = gr.State({})
+    btn_start.click(
+        fn=start_lesson,
+        inputs=[inp_image, inp_text, lesson_state],
+        outputs=[out_video, out_question, btn_opt1, btn_opt2, lesson_state]
+    )
+    btn_opt1.click(fn=answer_selected, inputs=[btn_opt1, lesson_state],
+                   outputs=[out_reaction_video, out_status])
+    btn_opt2.click(fn=answer_selected, inputs=[btn_opt2, lesson_state],
+                   outputs=[out_reaction_video, out_status])
     demo.load(lambda: "Готово", outputs=out_status)
+if __name__ == "__main__":
     demo.launch()