Spaces:

AlserFurma
/

LipSyncAI

Running

App Files Files Community

AlserFurma commited on 17 days ago

Commit

64354df

verified ·

1 Parent(s): fdf8c85

Update app.py

Browse files

Files changed (1) hide show

app.py +223 -129

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# Обновлённая версия app.py с интерактивным модулем уроков
 import gradio as gr
 import os
@@ -12,12 +12,16 @@ import traceback
 import random
 # =========================
-# Загрузка моделей
 # =========================
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"Using device: {device}")
 try:
     # TTS модель (казахский)
     tts_model = VitsModel.from_pretrained("facebook/mms-tts-kaz").to(device)
@@ -30,7 +34,7 @@ try:
         device=0 if device == "cuda" else -1
     )
-    # Модель для генерации вопросов
     qa_model = pipeline(
         "text2text-generation",
         model="google/flan-t5-small",
@@ -44,163 +48,253 @@ except Exception as e:
 # =========================
-# Talking Head API
-# =========================
-TALKING_HEAD_SPACE = "Skywork/skyreels-a1-talking-head"
-# =========================
-# Генерация вопроса + вариантов ответа
 # =========================
-def generate_quiz(text):
-    prompt = f"Сгенерируй один учебный вопрос по этому тексту и дай 1 правильный и 1 неправильный вариант ответа. Формат: QUESTION: ... CORRECT: ... WRONG: ... TEXT: {text}"
-    output = qa_model(prompt, max_length=200)[0]["generated_text"]
-    question, correct, wrong = "", "", ""
-    for line in output.split("\n"):
-        if "QUESTION:" in line:
-            question = line.replace("QUESTION:", "").strip()
-        elif "CORRECT:" in line:
-            correct = line.replace("CORRECT:", "").strip()
-        elif "WRONG:" in line:
-            wrong = line.replace("WRONG:", "").strip()
-    if not question or not correct or not wrong:
-        raise ValueError("Модель не смогла создать вопрос.")
-    # Перемешиваем варианты
     options = [correct, wrong]
     random.shuffle(options)
-    return question, correct, options
-# =========================
-# Основная функция (с интерактивом)
-# =========================
-def inference(image: Image.Image, text: str):
-    error_msg = ""
-    video_path = None
-    audio_path = None
-    img_path = None
     try:
-        if image is None:
-            raise ValueError("Загрузите изображение лектора!")
-        if not text or not text.strip():
-            raise ValueError("Введите текст лекции!")
-        if len(text) > 500:
-            raise ValueError("Текст превышает 500 символов!")
-        print("📥 Ввод (RU):", text)
-        # Создание вопроса
-        question, correct_answer, options = generate_quiz(text)
-        quiz_text_ru = f"Вопрос: {question}. Варианты ответа: {options[0]} или {options[1]}. Выберите правильный."
-        # Перевод вопроса и ответов на казахский, чтобы лектор произнёс их
-        translation = translator(quiz_text_ru, src_lang="rus_Cyrl", tgt_lang="kaz_Cyrl")
-        quiz_text_kk = translation[0]["translation_text"]
-        # TTS
-        inputs = tts_tokenizer(quiz_text_kk, return_tensors="pt").to(device)
-        with torch.no_grad():
-            output = tts_model(**inputs)
-        waveform = output.waveform.squeeze().cpu().numpy()
-        audio = (waveform * 32767).astype("int16")
-        sampling_rate = tts_model.config.sampling_rate
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
-            wavfile.write(f.name, sampling_rate, audio)
-            audio_path = f.name
-        # Сохранение фото
-        with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as f:
-            if image.mode != "RGB":
-                image = image.convert("RGB")
-            image.save(f.name)
-            img_path = f.name
-        # Talking Head API
-        client = Client(TALKING_HEAD_SPACE)
         result = client.predict(
-            image_path=handle_file(img_path),
             audio_path=handle_file(audio_path),
             guidance_scale=3.0,
             steps=10,
             api_name="/process_image_audio"
         )
-        if isinstance(result, tuple) and len(result) > 0:
-            video_data = result[0]
-        elif isinstance(result, dict):
-            video_data = result
-        else:
-            raise ValueError("Неизвестный формат ответа API")
-        video_path = (
-            video_data.get("video") or
-            video_data.get("path") or
-            video_data.get("file")
-        )
-        if not video_path:
-            raise ValueError("API не вернул путь к видео!")
-        error_msg = f"Вопрос: {question}\nВарианты ответа: {options}\nПравильный: {correct_answer}"
     except Exception as e:
-        error_msg = f"❌ Ошибка: {str(e)}"
         traceback.print_exc()
-    finally:
-        for p in [audio_path, img_path]:
-            if p and os.path.exists(p):
-                try:
-                    os.remove(p)
-                except:
-                    pass
-    return video_path, error_msg
 # =========================
-# Интерфейс Gradio
 # =========================
-title = "🎓 Интерактивный Бейне Оқытушы"
-description = """
-Загрузите фото лектора и текст лекции. Система:
-1) Переведёт текст
-2) Озвучит
-3) Создаст видео лектора
-4) Сгенерирует вопрос и варианты ответа
-"""
-iface = gr.Interface(
-    fn=inference,
-    inputs=[
-        gr.Image(type="pil", label="📸 Фото лектора"),
-        gr.Textbox(lines=5, label="📝 Текст лекции (RU)")
-    ],
-    outputs=[
-        gr.Video(label="🎬 Видео"),
-        gr.Textbox(label="🧩 Вопрос и ответы")
-    ],
-    title=title,
-    description=description,
-    cache_examples=False,
-    flagging_mode="never"
 )
-if __name__ == "__main__":
-    iface.launch()

+# Полная обновлённая версия app.py с двухшаговым интерактивным уроком (короткая реакция на казахском)
 import gradio as gr
 import os
 import random
 # =========================
+# Параметры
 # =========================
+TALKING_HEAD_SPACE = "Skywork/skyreels-a1-talking-head"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"Using device: {device}")
+# =========================
+# Загрузка моделей
+# =========================
 try:
     # TTS модель (казахский)
     tts_model = VitsModel.from_pretrained("facebook/mms-tts-kaz").to(device)
         device=0 if device == "cuda" else -1
     )
+    # Модель для генерации вопросов (text2text)
     qa_model = pipeline(
         "text2text-generation",
         model="google/flan-t5-small",
 # =========================
+# Вспомогательные функции
 # =========================
+def generate_quiz(text: str):
+    """Генерирует один вопрос и два варианта (correct, wrong) на русском языке."""
+    prompt = (
+        "Сгенерируй один учебный вопрос по этому тексту и дай 1 правильный и 1 неправильный вариант ответа. "
+        "Формат вывода (разделять переносами строки): QUESTION: ... CORRECT: ... WRONG: ... TEXT: " + text
+    )
+    try:
+        out = qa_model(prompt, max_length=200)[0]["generated_text"]
+    except Exception as e:
+        raise RuntimeError(f"Ошибка генерации вопроса: {e}")
+    question = ""
+    correct = ""
+    wrong = ""
+    for line in out.split('
+'):
+        if line.upper().startswith("QUESTION:"):
+            question = line.split(':', 1)[1].strip()
+        elif line.upper().startswith("CORRECT:"):
+            correct = line.split(':', 1)[1].strip()
+        elif line.upper().startswith("WRONG:"):
+            wrong = line.split(':', 1)[1].strip()
+    if not (question and correct and wrong):
+        # Попытка более простого разбора
+        parts = out.split('CORRECT:')
+        if len(parts) > 1:
+            qpart = parts[0]
+            question = qpart.replace('QUESTION:', '').strip()
+            rest = parts[1]
+            if 'WRONG:' in rest:
+                correct, wrong = rest.split('WRONG:', 1)
+                correct = correct.strip()
+                wrong = wrong.strip()
+    if not (question and correct and wrong):
+        raise ValueError('Модель не смогла корректно сгенерировать вопрос/варианты')
     options = [correct, wrong]
     random.shuffle(options)
+    return question, options, correct
+def synthesize_audio(text_ru: str):
+    """Переводит русскую строку на казахский, синтезирует аудио и возвращает путь к файлу .wav"""
+    # Переводим на казахский
+    translation = translator(text_ru, src_lang="rus_Cyrl", tgt_lang="kaz_Cyrl")
+    text_kk = translation[0]["translation_text"]
+    inputs = tts_tokenizer(text_kk, return_tensors="pt").to(device)
+    with torch.no_grad():
+        output = tts_model(**inputs)
+    waveform = output.waveform.squeeze().cpu().numpy()
+    if waveform.size == 0:
+        raise ValueError("TTS вернул пустое аудио")
+    audio = (waveform * 32767).astype('int16')
+    sampling_rate = getattr(tts_model.config, 'sampling_rate', 22050)
+    tmpf = tempfile.NamedTemporaryFile(suffix='.wav', delete=False)
+    wavfile.write(tmpf.name, sampling_rate, audio)
+    tmpf.close()
+    return tmpf.name
+def make_talking_head(image_path: str, audio_path: str):
+    """Вызывает SkyReels/Talking Head space и возвращает путь или объект с видео."""
+    client = Client(TALKING_HEAD_SPACE)
     try:
         result = client.predict(
+            image_path=handle_file(image_path),
             audio_path=handle_file(audio_path),
             guidance_scale=3.0,
             steps=10,
             api_name="/process_image_audio"
         )
+    except Exception as e:
+        raise RuntimeError(f"Ошибка вызова Talking Head API: {e}")
+    video_path = None
+    if isinstance(result, tuple) and len(result) > 0:
+        video_data = result[0]
+    elif isinstance(result, dict):
+        video_data = result
+    else:
+        video_data = result
+    if isinstance(video_data, dict):
+        video_path = video_data.get('video') or video_data.get('path') or video_data.get('file')
+    elif isinstance(video_data, str):
+        video_path = video_data
+    if not video_path:
+        raise ValueError('API не вернул путь к видео')
+    return video_path
+# =========================
+# Основные обработчики для Gradio
+# =========================
+def start_lesson(image: Image.Image, text: str, state):
+    """Шаг 1: генерируем видео-лекцию с вопросом и вариантами ответа.
+    Возвращаем видео, текст вопроса, два варианта и сохраняем правильный ответ + путь к изображению в state."""
+    if image is None:
+        return None, "", [], [], state
+    if not text or not text.strip():
+        return None, "", [], [], state
+    if len(text) > 500:
+        return None, "", [], [], state
+    try:
+        # 1) Генерация вопроса
+        question, options, correct = generate_quiz(text)
+        # 2) Подготовить текст, который лектор произнесёт (вопрос + варианты)
+        quiz_ru = f"Вопрос: {question} Варианты: 1) {options[0]} 2) {options[1]}"
+        # 3) Синтез аудио для вопроса (на казахском внутри функции synthesize_audio)
+        audio_path = synthesize_audio(quiz_ru)
+        # 4) Сохранение фото во временный файл (чтобы передать в Talking Head API)
+        tmpimg = tempfile.NamedTemporaryFile(suffix='.png', delete=False)
+        if image.mode != 'RGB':
+            image = image.convert('RGB')
+        image.save(tmpimg.name)
+        tmpimg.close()
+        image_path = tmpimg.name
+        # 5) Генерация видео через Talking Head
+        video_path = make_talking_head(image_path, audio_path)
+        # 6) Сохраняем в state необходимые значения (image_path и correct ответ)
+        state_data = {
+            'image_path': image_path,
+            'correct': correct,
+            'options': options
+        }
+        # 7) Сообщение состояния: вернём question и варианты в RU для отображения
+        question_display = question
+        # Удалим audio временный файл (видео уже сгенерировано)
+        try:
+            if os.path.exists(audio_path):
+                os.remove(audio_path)
+        except:
+            pass
+        return video_path, question_display, options, state_data, state_data
     except Exception as e:
         traceback.print_exc()
+        return None, f"Ошибка: {e}", [], [], state
+def answer_selected(selected_option: str, state):
+    """Шаг 2: пользователь выбирает вариант — генерируем реакцию лектора (короткая на казахском).
+    state должен содержать image_path и correct ответ."""
+    if not state:
+        return None, "Ошибка: отсутствует состояние урока. Сначала нажмите 'Запустить урок'."
+    try:
+        correct = state.get('correct')
+        image_path = state.get('image_path')
+        options = state.get('options', [])
+        if selected_option not in options:
+            # Иногда selected comes as index or value; try to handle
+            pass
+        if selected_option == correct:
+            reaction_ru = "Молодец!"  # короткая реакция на русском — переведём на казахский в synthesize_audio
+            display_message = "Дұрыс!"  # сообщение для интерфейса (можно сразу на казахском)
+        else:
+            reaction_ru = f"Неправильно. Правильный ответ: {correct}"
+            display_message = f"Қате. Дұрыс жауап: {correct}"
+        # Синтезируем реакцию (на казахском внутри)
+        audio_path = synthesize_audio(reaction_ru)
+        # Генерируем видео-реакцию с тем же изображением
+        reaction_video = make_talking_head(image_path, audio_path)
+        # Удаляем временный audio
+        try:
+            if os.path.exists(audio_path):
+                os.remove(audio_path)
+        except:
+            pass
+        return reaction_video, display_message
+    except Exception as e:
+        traceback.print_exc()
+        return None, f"Ошибка: {e}"
 # =========================
+# Gradio UI (двухшаговый)
 # =========================
+title = "🎓 Интерактивный бейне-лектор"
+description = (
+    "Загрузите фото лектора и текст лекции (орыс тілінде, до 500 символов).
+"
+    "Система создаст видео-лектора, задаст вопрос и предложит 2 варианта ответа.
+"
+    "Нажмите на один из вариантов — лектор коротко отреагирует (қазақша)."
 )
+with gr.Blocks() as demo:
+    gr.Markdown(f"# {title}
+{description}")
+    with gr.Row():
+        with gr.Column(scale=1):
+            inp_image = gr.Image(type='pil', label='📸 Фото лектора')
+            inp_text = gr.Textbox(lines=5, label='📝 Текст лекции (рус.)', placeholder='Введите текст...')
+            btn_start = gr.Button("Запустить урок")
+        with gr.Column(scale=1):
+            out_video = gr.Video(label='🎬 Видео лектора')
+            out_question = gr.Markdown(label='Вопрос')
+            # Кнопки для двух вариантов; изначально пустые
+            btn_opt1 = gr.Button("Вариант 1")
+            btn_opt2 = gr.Button("Вариант 2")
+            out_reaction_video = gr.Video(label='🎥 Реакция лектора')
+            out_status = gr.Textbox(label='ℹ️ Статус', interactive=False)
+    # State для хранения данных между шагами
+    lesson_state = gr.State({})
+    # Привязки
+    btn_start.click(fn=start_lesson, inputs=[inp_image, inp_text, lesson_state], outputs=[out_video, out_question, btn_opt1, btn_opt2, lesson_state])
+    # Когда пользователь нажимает один из вариантов, вызываем answer_selected
+    btn_opt1.click(fn=answer_selected, inputs=[btn_opt1, lesson_state], outputs=[out_reaction_video, out_status])
+    btn_opt2.click(fn=answer_selected, inputs=[btn_opt2, lesson_state], outputs=[out_reaction_video, out_status])
+    # Небольшая подсказка при запуске
+    demo.load(lambda: "Готово", outputs=out_status)
+if __name__ == '__main__':
+    demo.launch()