Spaces:

AlserFurma
/

LipSyncAI

Running

App Files Files Community

AlserFurma commited on 24 days ago

Commit

c5f3eef

verified ·

1 Parent(s): c320841

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -84

app.py CHANGED Viewed

@@ -9,6 +9,8 @@ import scipy.io.wavfile as wavfile
 import traceback
 import random
 import time
 # =========================
 # Параметры
@@ -52,7 +54,6 @@ except Exception as e:
 def generate_quiz(text: str):
     """
     Генерирует один вопрос и два варианта ответа (correct, wrong) на русском языке.
-    Парсит текст вместо строгого JSON.
     """
     prompt = (
         "Сгенерируй один учебный вопрос по этому тексту и два варианта ответа (правильный и неправильный). "
@@ -60,18 +61,15 @@ def generate_quiz(text: str):
     )
     try:
         out = qa_model(prompt, max_length=256)[0]["generated_text"]
-        # Пробуем извлечь вопрос и два ответа через простые маркеры
         import re
         match = re.search(
             r"Вопрос\s*[:\-]\s*(.*?)\s*Ответ1\s*[:\-]\s*(.*?)\s*Ответ2\s*[:\-]\s*(.*)", out, re.DOTALL | re.IGNORECASE
         )
         if not match:
-            # fallback: разделяем по строкам
             lines = [l.strip() for l in out.splitlines() if l.strip()]
             if len(lines) >= 3:
                 question, correct, wrong = lines[:3]
             else:
-                # Если всё равно не получилось — берём первые 3 фразы
                 parts = out.split(".")
                 question = parts[0] if len(parts) > 0 else "Вопрос"
                 correct = parts[1] if len(parts) > 1 else "Вариант 1"
@@ -86,7 +84,7 @@ def generate_quiz(text: str):
         random.shuffle(options)
         return question, options, correct
     except Exception as e:
-        raise ValueError(f"Ошибка генерации вопроса:\n{str(e)}\nМодель вернула: {out}")
 def synthesize_audio(text_ru: str):
@@ -108,6 +106,23 @@ def synthesize_audio(text_ru: str):
     return tmpf.name
 def make_talking_head(image_path: str, audio_path: str, max_retries=3):
     """Вызывает SkyReels/Talking Head space и возвращает путь или URL видео."""
     for attempt in range(max_retries):
@@ -121,20 +136,16 @@ def make_talking_head(image_path: str, audio_path: str, max_retries=3):
                 api_name="/process_image_audio"
             )
-            # Отладочный вывод
             print(f"Result type: {type(result)}")
             print(f"Result content: {result}")
-            # Обработка различных форматов результата
             if isinstance(result, tuple):
-                # Если результат - кортеж, берем первый элемент
                 video_path = result[0]
                 if isinstance(video_path, dict) and "video" in video_path:
                     return video_path["video"]
                 elif isinstance(video_path, str):
                     return video_path
                 else:
-                    # Если первый элемент не подходит, пробуем найти путь к видео в кортеже
                     for item in result:
                         if isinstance(item, str) and (item.endswith('.mp4') or item.endswith('.webm') or os.path.exists(str(item))):
                             return item
@@ -158,9 +169,9 @@ def make_talking_head(image_path: str, audio_path: str, max_retries=3):
 # Основные обработчики для Gradio
 # =========================
 def start_lesson(image: Image.Image, text: str, state):
-    """Шаг 1: лектор читает текст лекции."""
     if image is None or not text.strip() or len(text) > 500:
-        return None, "Пожалуйста, загрузите фото и введите текст лекции (до 500 символов)", gr.update(visible=False), state
     try:
         # Сохраняем изображение
@@ -171,72 +182,68 @@ def start_lesson(image: Image.Image, text: str, state):
         tmpimg.close()
         image_path = tmpimg.name
-        # Генерируем вопрос заранее (но не озвучиваем)
         question, options, correct = generate_quiz(text)
-        # Лектор читает текст лекции
-        audio_path = synthesize_audio(text)
-        video_path = make_talking_head(image_path, audio_path)
         # Сохраняем состояние
         state_data = {
             'image_path': image_path,
             'correct': correct,
             'options': options,
-            'question': question,
-            'text': text
         }
-        # Удаляем временный аудио файл
-        try:
-            os.remove(audio_path)
-        except:
             pass
-        return video_path, "✅ Лекция прочитана. Нажмите 'Задать вопрос' для проверки знаний.", gr.update(visible=True), state_data
-    except Exception as e:
-        traceback.print_exc()
-        return None, f"❌ Ошибка: {e}", gr.update(visible=False), state
-def ask_question(state):
-    """Шаг 2: лектор задает вопрос с вариантами ответа."""
-    if not state:
-        return None, "❌ Ошибка: сначала запустите урок", gr.update(visible=False), gr.update(visible=False)
-    try:
-        image_path = state.get('image_path')
-        question = state.get('question')
-        options = state.get('options', [])
-        # Формируем текст вопроса с вариантами
-        quiz_text = f"{question}. Первый вариант: {options[0]}. Второй вариант: {options[1]}"
-        # Генерируем аудио и видео с вопросом
-        audio_path = synthesize_audio(quiz_text)
-        video_path = make_talking_head(image_path, audio_path)
-        # Удаляем временный аудио файл
-        try:
-            os.remove(audio_path)
-        except:
-            pass
         return (
             video_path,
-            f"**Вопрос:** {question}",
-            gr.update(value=options[0], visible=True),
-            gr.update(value=options[1], visible=True)
         )
     except Exception as e:
         traceback.print_exc()
-        return None, f"❌ Ошибка: {e}", gr.update(visible=False), gr.update(visible=False)
 def answer_selected(selected_option: str, state):
-    """Шаг 3: пользователь выбирает вариант — генерируем реакцию лектора."""
     if not state:
         return None, "❌ Ошибка: отсутствует состояние урока"
@@ -245,13 +252,16 @@ def answer_selected(selected_option: str, state):
         image_path = state.get('image_path')
         if selected_option == correct:
-            reaction_ru = "Правильно! Молодец!"
-            display_message = "✅ Дұрыс! Жарайсың!"
         else:
-            reaction_ru = f"Неправильно. Правильный ответ: {correct}"
-            display_message = f"❌ Қате. Дұрыс жауап: {correct}"
         audio_path = synthesize_audio(reaction_ru)
         reaction_video = make_talking_head(image_path, audio_path)
         try:
@@ -273,9 +283,8 @@ title = "🎓 Интерактивный бейне-лектор"
 description = (
     "**Как работает:**\n"
     "1. Загрузите фото лектора и введите текст лекции (русский, до 500 символов)\n"
-    "2. Нажмите 'Запустить урок' — лектор прочитает текст\n"
-    "3. Нажмите 'Задать вопрос' — лектор задаст вопрос с двумя вариантами ответа\n"
-    "4. Выберите правильный ответ — лектор отреагирует на қазақша"
 )
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
@@ -290,57 +299,46 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
                 placeholder='Введите текст лекции...',
                 info="Максимум 500 символов"
             )
-            btn_start = gr.Button("🚀 Запустить урок", variant="primary")
-            btn_question = gr.Button("❓ Задать вопрос", visible=False, variant="secondary")
         with gr.Column(scale=1):
             out_video = gr.Video(label='🎬 Видео лектора')
-            out_status = gr.Markdown("ℹ️ Загрузите фото и текст, затем нажмите 'Запустить урок'")
             with gr.Row():
-                btn_opt1 = gr.Button("Вариант 1", visible=False, size="lg")
-                btn_opt2 = gr.Button("Вариант 2", visible=False, size="lg")
-            out_reaction_video = gr.Video(label='🎥 Реакция лектора', visible=False)
             out_result = gr.Markdown("")
     lesson_state = gr.State({})
-    # Шаг 1: Запуск урока (чтение текста)
     btn_start.click(
         fn=start_lesson,
         inputs=[inp_image, inp_text, lesson_state],
-        outputs=[out_video, out_status, btn_question, lesson_state]
-    )
-    # Шаг 2: Задать вопрос
-    btn_question.click(
-        fn=ask_question,
-        inputs=[lesson_state],
-        outputs=[out_video, out_status, btn_opt1, btn_opt2]
     )
-    # Шаг 3: Обработка ответов
     def handle_answer_1(state):
         option = state.get('options', [''])[0] if state else ''
-        video, msg = answer_selected(option, state)
-        return video, msg, gr.update(visible=True)
     def handle_answer_2(state):
         option = state.get('options', [''])[1] if state and len(state.get('options', [])) > 1 else ''
-        video, msg = answer_selected(option, state)
-        return video, msg, gr.update(visible=True)
     btn_opt1.click(
         fn=handle_answer_1,
         inputs=[lesson_state],
-        outputs=[out_reaction_video, out_result, out_reaction_video]
     )
     btn_opt2.click(
         fn=handle_answer_2,
         inputs=[lesson_state],
-        outputs=[out_reaction_video, out_result, out_reaction_video]
     )
 if __name__ == '__main__':

 import traceback
 import random
 import time
+import numpy as np
+from pydub import AudioSegment
 # =========================
 # Параметры
 def generate_quiz(text: str):
     """
     Генерирует один вопрос и два варианта ответа (correct, wrong) на русском языке.
     """
     prompt = (
         "Сгенерируй один учебный вопрос по этому тексту и два варианта ответа (правильный и неправильный). "
     )
     try:
         out = qa_model(prompt, max_length=256)[0]["generated_text"]
         import re
         match = re.search(
             r"Вопрос\s*[:\-]\s*(.*?)\s*Ответ1\s*[:\-]\s*(.*?)\s*Ответ2\s*[:\-]\s*(.*)", out, re.DOTALL | re.IGNORECASE
         )
         if not match:
             lines = [l.strip() for l in out.splitlines() if l.strip()]
             if len(lines) >= 3:
                 question, correct, wrong = lines[:3]
             else:
                 parts = out.split(".")
                 question = parts[0] if len(parts) > 0 else "Вопрос"
                 correct = parts[1] if len(parts) > 1 else "Вариант 1"
         random.shuffle(options)
         return question, options, correct
     except Exception as e:
+        raise ValueError(f"Ошибка генерации вопроса:\n{str(e)}")
 def synthesize_audio(text_ru: str):
     return tmpf.name
+def concatenate_audio_files(audio_files):
+    """Объединяет несколько аудио файлов в один с паузами между ними"""
+    combined = AudioSegment.empty()
+    pause = AudioSegment.silent(duration=1000)  # 1 секунда паузы
+    for i, audio_file in enumerate(audio_files):
+        audio = AudioSegment.from_wav(audio_file)
+        combined += audio
+        if i < len(audio_files) - 1:  # Не добавляем паузу после последнего файла
+            combined += pause
+    output_file = tempfile.NamedTemporaryFile(suffix='.wav', delete=False)
+    combined.export(output_file.name, format='wav')
+    output_file.close()
+    return output_file.name
 def make_talking_head(image_path: str, audio_path: str, max_retries=3):
     """Вызывает SkyReels/Talking Head space и возвращает путь или URL видео."""
     for attempt in range(max_retries):
                 api_name="/process_image_audio"
             )
             print(f"Result type: {type(result)}")
             print(f"Result content: {result}")
             if isinstance(result, tuple):
                 video_path = result[0]
                 if isinstance(video_path, dict) and "video" in video_path:
                     return video_path["video"]
                 elif isinstance(video_path, str):
                     return video_path
                 else:
                     for item in result:
                         if isinstance(item, str) and (item.endswith('.mp4') or item.endswith('.webm') or os.path.exists(str(item))):
                             return item
 # Основные обработчики для Gradio
 # =========================
 def start_lesson(image: Image.Image, text: str, state):
+    """Создает одно видео: текст лекции + вопрос с вариантами ответа"""
     if image is None or not text.strip() or len(text) > 500:
+        return None, "Пожалуйста, загрузите фото и введите текст лекции (до 500 символов)", gr.update(visible=False), gr.update(visible=False), state
     try:
         # Сохраняем изображение
         tmpimg.close()
         image_path = tmpimg.name
+        # Генерируем вопрос
         question, options, correct = generate_quiz(text)
+        # Создаем три аудио файла
+        audio_files = []
+        # 1. Текст лекции
+        audio1 = synthesize_audio(text)
+        audio_files.append(audio1)
+        # 2. Вопрос
+        question_text = f"А теперь вопрос: {question}"
+        audio2 = synthesize_audio(question_text)
+        audio_files.append(audio2)
+        # 3. Варианты ответа
+        options_text = f"Первый вариант: {options[0]}. Второй вариант: {options[1]}"
+        audio3 = synthesize_audio(options_text)
+        audio_files.append(audio3)
+        # Объединяем все аудио в одно
+        combined_audio = concatenate_audio_files(audio_files)
+        # Создаем одно видео с полным содержанием
+        video_path = make_talking_head(image_path, combined_audio)
         # Сохраняем состояние
         state_data = {
             'image_path': image_path,
             'correct': correct,
             'options': options,
+            'question': question
         }
+        # Удаляем временные аудио файлы
+        for audio_file in audio_files:
+            try:
+                os.remove(audio_file)
+            except:
+                pass
+        try:
+            os.remove(combined_audio)
+        except:
             pass
+        question_display = f"**Вопрос:** {question}"
         return (
             video_path,
+            question_display,
+            gr.update(value=options[0], visible=True),
+            gr.update(value=options[1], visible=True),
+            state_data
         )
     except Exception as e:
         traceback.print_exc()
+        return None, f"❌ Ошибка: {e}", gr.update(visible=False), gr.update(visible=False), state
 def answer_selected(selected_option: str, state):
+    """Генерирует реакцию лектора и показывает в том же окне"""
     if not state:
         return None, "❌ Ошибка: отсутствует состояние урока"
         image_path = state.get('image_path')
         if selected_option == correct:
+            reaction_ru = "Правильно! Отлично справились!"
+            display_message = "✅ **Дұрыс! Жарайсың!**"
         else:
+            reaction_ru = f"К сожалению неправильно. Правильный ответ был: {correct}"
+            display_message = f"❌ **Қате!** Дұрыс жауап: **{correct}**"
+        # Создаем аудио с реакцией
         audio_path = synthesize_audio(reaction_ru)
+        # Создаем видео с реакцией
         reaction_video = make_talking_head(image_path, audio_path)
         try:
 description = (
     "**Как работает:**\n"
     "1. Загрузите фото лектора и введите текст лекции (русский, до 500 символов)\n"
+    "2. Нажмите 'Запустить урок' — лектор прочитает текст и задаст вопрос\n"
+    "3. Выберите правильный ответ — лектор отреагирует в том же окне"
 )
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
                 placeholder='Введите текст лекции...',
                 info="Максимум 500 символов"
             )
+            btn_start = gr.Button("🚀 Запустить урок", variant="primary", size="lg")
         with gr.Column(scale=1):
             out_video = gr.Video(label='🎬 Видео лектора')
+            out_question = gr.Markdown("")
             with gr.Row():
+                btn_opt1 = gr.Button("Вариант 1", visible=False, size="lg", variant="secondary")
+                btn_opt2 = gr.Button("Вариант 2", visible=False, size="lg", variant="secondary")
             out_result = gr.Markdown("")
     lesson_state = gr.State({})
+    # Запуск урока
     btn_start.click(
         fn=start_lesson,
         inputs=[inp_image, inp_text, lesson_state],
+        outputs=[out_video, out_question, btn_opt1, btn_opt2, lesson_state]
     )
+    # Обработка ответов
     def handle_answer_1(state):
         option = state.get('options', [''])[0] if state else ''
+        return answer_selected(option, state)
     def handle_answer_2(state):
         option = state.get('options', [''])[1] if state and len(state.get('options', [])) > 1 else ''
+        return answer_selected(option, state)
     btn_opt1.click(
         fn=handle_answer_1,
         inputs=[lesson_state],
+        outputs=[out_video, out_result]
     )
     btn_opt2.click(
         fn=handle_answer_2,
         inputs=[lesson_state],
+        outputs=[out_video, out_result]
     )
 if __name__ == '__main__':