Spaces:

AlserFurma
/

LipSyncAI

Running

AlserFurma commited on 19 days ago

Commit

ee0187d

verified ·

1 Parent(s): f1b66ce

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,6 +27,11 @@ try:
     tts_model = VitsModel.from_pretrained("facebook/mms-tts-kaz").to(device)
     tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-kaz")
     # Перевод ru -> kk
     translator = pipeline(
         "translation",
@@ -117,7 +122,7 @@ def synthesize_audio(text_ru: str):
     inputs = tts_tokenizer(text_kk, return_tensors="pt").to(device)
     with torch.no_grad():
-        output = tts_model(**inputs, noise_scale=0.7, noise_scale_w=0.9, length_scale=1.2)
     waveform = output.waveform.squeeze().cpu().numpy()
     waveform /= np.max(np.abs(waveform)) + 1e-8  # Нормализация для лучшего качества

     tts_model = VitsModel.from_pretrained("facebook/mms-tts-kaz").to(device)
     tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-kaz")
+    # Настройка конфигурации для более приятного и выразительного голоса
+    tts_model.config.noise_scale = 0.5  # Меньше шума для чище голоса
+    tts_model.config.noise_scale_duration = 0.8  # Вариация в длительности
+    tts_model.config.speaking_rate = 0.9  # Чуть медленнее для выразительности
     # Перевод ru -> kk
     translator = pipeline(
         "translation",
     inputs = tts_tokenizer(text_kk, return_tensors="pt").to(device)
     with torch.no_grad():
+        output = tts_model(**inputs)
     waveform = output.waveform.squeeze().cpu().numpy()
     waveform /= np.max(np.abs(waveform)) + 1e-8  # Нормализация для лучшего качества