Spaces:

drrobot9
/

voice_analysis

Running

App Files Files Community

drrobot9 commited on 24 days ago

Commit

3845214

verified ·

1 Parent(s): 7b109a2

Initial commit

Browse files

Files changed (4) hide show

Dockerfile +18 -0
config.json +5 -0
main.py +130 -0
requirements.txt +8 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,18 @@

+# Base image
+FROM python:3.12-slim
+# Set workdir
+WORKDIR /app
+# Copy code and config
+COPY . .
+# Install dependencies
+RUN pip install --no-cache-dir \
+    torch torchaudio librosa soundfile requests transformers fastapi uvicorn[standard] python-multipart
+# Expose port
+EXPOSE 7860
+# Run FastAPI
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+    "eleven_api_key": "sk_84188df74eab2dc17d5cafae4365e2883699bb57dbfaacaa",
+    "eleven_voice_id": "ZthjuvLPty3kTMaNKVKb",
+    "llm_url": "https://remostart-super-test-verstion-three.hf.space/ask"
+}

main.py ADDED Viewed

	@@ -0,0 +1,130 @@

+import os
+import json
+import torch
+import librosa
+import requests
+import soundfile as sf
+from fastapi import FastAPI, UploadFile, File
+from fastapi.responses import FileResponse
+from transformers import (
+    Wav2Vec2Processor, Wav2Vec2ForCTC,
+    AutoFeatureExtractor, AutoModelForAudioClassification
+)
+from starlette.middleware.cors import CORSMiddleware
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+print("Device:", DEVICE)
+# Load config
+with open("config.json") as f:
+    config = json.load(f)
+ELEVEN_API_KEY = config["eleven_api_key"]
+VOICE_ID = config["eleven_voice_id"]
+LLM_URL = config["llm_url"]
+# STT Model
+print("Loading STT model...")
+stt_processor = Wav2Vec2Processor.from_pretrained("facebook/mms-1b-all")
+stt_model = Wav2Vec2ForCTC.from_pretrained("facebook/mms-1b-all").to(DEVICE)
+stt_model.eval()
+print("STT loaded ")
+def transcribe(audio_path):
+    wav, sr = librosa.load(audio_path, sr=16000)
+    inputs = stt_processor(wav, sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = stt_model(inputs.input_values.to(DEVICE)).logits
+    ids = torch.argmax(logits, dim=-1)
+    return stt_processor.batch_decode(ids)[0].strip()
+#  Emotion Model
+print("Loading Emotion model...")
+emotion_extractor = AutoFeatureExtractor.from_pretrained("superb/hubert-base-superb-er")
+emotion_model = AutoModelForAudioClassification.from_pretrained(
+    "superb/hubert-base-superb-er"
+).to(DEVICE)
+emotion_model.eval()
+print("Emotion model loaded ")
+def get_emotion(audio_path):
+    wav, sr = librosa.load(audio_path, sr=16000)
+    feats = emotion_extractor(wav, sampling_rate=16000, return_tensors="pt")
+    with torch.no_grad():
+        out = emotion_model(feats["input_values"].to(DEVICE))
+    pred = torch.argmax(out.logits, dim=-1).item()
+    return emotion_model.config.id2label[pred]
+#  LLM Call
+def ask_llm(text):
+    payload = {"query": text}
+    r = requests.post(LLM_URL, json=payload, timeout=200)
+    try:
+        return r.json()["answer"]
+    except:
+        return str(r.json())
+#  TTS
+def tts_eleven(text, out_file="response.mp3"):
+    url = f"https://api.elevenlabs.io/v1/text-to-speech/{VOICE_ID}"
+    headers = {
+        "xi-api-key": ELEVEN_API_KEY,
+        "Content-Type": "application/json"
+    }
+    payload = {"text": text, "model_id": "eleven_multilingual_v2"}
+    resp = requests.post(url, json=payload, headers=headers)
+    if resp.status_code != 200:
+        raise Exception(f"ElevenLabs TTS Error: {resp.text}")
+    with open(out_file, "wb") as f:
+        f.write(resp.content)
+    return out_file
+# FastAPI App
+app = FastAPI(title="Voice AI API")
+# Enable CORS for Hugging Face Spaces frontend
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+@app.post("/process-audio/")
+async def process_audio(file: UploadFile = File(...)):
+    audio_path = f"temp_{file.filename}"
+    with open(audio_path, "wb") as f:
+        f.write(await file.read())
+    transcript = transcribe(audio_path)
+    emotion = get_emotion(audio_path)
+    llm_out = ask_llm(transcript)
+    tts_file = tts_eleven(llm_out)
+    # Return TTS file as downloadable mp3
+    return FileResponse(tts_file, media_type="audio/mpeg", filename="response.mp3")
+@app.get("/")
+async def root():
+    return {"message": "Voice AI API is running. Use /process-audio/ endpoint to upload audio."}

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+torch
+torchaudio
+transformers
+librosa
+soundfile
+requests
+fastapi
+uvicorn[standard]