Spaces:

Flux9665
/

IMS-Toucan

Runtime error

App Files Files

Florian Lux commited on Feb 20, 2022

Commit

49696ae

1 Parent(s): c8c05d4

try it one more time with speaker

Browse files

Files changed (3) hide show

.gitignore +2 -1
app.py +13 -11
packages.txt +1 -0

.gitignore CHANGED Viewed

@@ -11,4 +11,5 @@ audios/
 *playground*
 *.json
 .tmp/
-.vscode/

 *playground*
 *.json
 .tmp/
+.vscode/
+Models/

app.py CHANGED Viewed

@@ -1,15 +1,14 @@
 import os
-import gdown
 import gradio as gr
 import numpy as np
 import torch
 from InferenceInterfaces.Meta_FastSpeech2 import Meta_FastSpeech2
-import os
 os.system("pip uninstall -y gradio")
-os.system("pip install gradio==2.7.5")
 def float2pcm(sig, dtype='int16'):
     """
@@ -30,16 +29,10 @@ def float2pcm(sig, dtype='int16'):
 class TTS_Interface:
     def __init__(self):
-        os.makedirs("Models/HiFiGAN_combined", exist_ok=True)
-        os.makedirs("Models/FastSpeech2_Meta", exist_ok=True)
-        if not os.path.exists("Models/FastSpeech2_Meta/best.pt"):
-            gdown.download(id="1-AhjmCR6DDI6rtzPIn9ksOxQyHKf6CbG", output="Models/FastSpeech2_Meta/best.pt")
-        if not os.path.exists("Models/HiFiGAN_combined/best.pt"):
-            gdown.download(id="1-5sP-0JDUvKTjxhO3hUVJgArSUjuhU6P", output="Models/HiFiGAN_combined/best.pt")
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         self.model = Meta_FastSpeech2(device=self.device)
-    def read(self, prompt, language):
         language_id_lookup = {
             "English"  : "en",
             "German"   : "de",
@@ -52,6 +45,11 @@ class TTS_Interface:
             "French"   : "fr"
             }
         self.model.set_language(language_id_lookup[language])
         wav = self.model(prompt)
         return 48000, float2pcm(wav.cpu().numpy())
@@ -69,7 +67,11 @@ iface = gr.Interface(fn=meta_model.read,
                                                  'Russian',
                                                  'Hungarian',
                                                  'Dutch',
-                                                 'French'], type="value", default='English', label="Language Selection")],
                      outputs=gr.outputs.Audio(type="numpy", label=None),
                      layout="vertical",
                      title="IMS Toucan Multilingual Multispeaker Demo",

 import os
 import gradio as gr
 import numpy as np
 import torch
 from InferenceInterfaces.Meta_FastSpeech2 import Meta_FastSpeech2
 os.system("pip uninstall -y gradio")
+os.system("pip install gradio==2.7.5.2")
 def float2pcm(sig, dtype='int16'):
     """
 class TTS_Interface:
     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         self.model = Meta_FastSpeech2(device=self.device)
+    def read(self, prompt, language, path_to_audio):
         language_id_lookup = {
             "English"  : "en",
             "German"   : "de",
             "French"   : "fr"
             }
         self.model.set_language(language_id_lookup[language])
+        if path_to_audio is not None:
+            try:
+                self.model.set_utterance_embedding(path_to_audio)
+            except RuntimeError:
+                pass
         wav = self.model(prompt)
         return 48000, float2pcm(wav.cpu().numpy())
                                                  'Russian',
                                                  'Hungarian',
                                                  'Dutch',
+                                                 'French'], type="value", default='English', label="Language Selection"),
+                             gr.inputs.Audio(source="microphone",
+                                             optional=True,
+                                             label="Make the TTS imitate your Voice (optional, press once to start recording and again to stop)",
+                                             type="filepath")],
                      outputs=gr.outputs.Audio(type="numpy", label=None),
                      layout="vertical",
                      title="IMS Toucan Multilingual Multispeaker Demo",

packages.txt CHANGED Viewed

@@ -1,2 +1,3 @@
 libsndfile1
 espeak-ng

 libsndfile1
 espeak-ng
+ffmpeg