语音识别模型¶

语音识别模型负责把麦克风或上传音频转成文本。纯文本 speak 请求不依赖 STT；只有用户通过语音输入时才需要配置本页能力。

Provider 选项¶

Provider / 模型	适用场景	必要配置
DashScope Paraformer realtime	托管实时中文语音识别，适合默认麦克风链路	`OPENTALKING_STT_DASHSCOPE_API_KEY`
SenseVoiceSmall	本地短句实时识别，适合私有化和 QuickTalk local 组合	SenseVoiceSmall 权重和 FunASR 依赖

DashScope Paraformer Realtime¶

.env

OPENTALKING_STT_DEFAULT_PROVIDER=dashscope
OPENTALKING_STT_DASHSCOPE_API_KEY=<dashscope-api-key>
OPENTALKING_STT_DASHSCOPE_MODEL=paraformer-realtime-v2

DashScope 部署中，LLM 与 STT 可以使用同一把实际 key，但必须分别写入 OPENTALKING_LLM_API_KEY 与 OPENTALKING_STT_DASHSCOPE_API_KEY。

本地 SenseVoiceSmall¶

.env

OPENTALKING_STT_DEFAULT_PROVIDER=sensevoice
OPENTALKING_STT_ENABLED_PROVIDERS=sensevoice,dashscope
OPENTALKING_STT_SENSEVOICE_MODEL=iic/SenseVoiceSmall
OPENTALKING_STT_SENSEVOICE_MODEL_DIR=./avatar_models/local-audio/iic__SenseVoiceSmall
OPENTALKING_STT_SENSEVOICE_DEVICE=cpu

下载权重：

终端

uv sync --extra dev --extra models --extra local-audio --python 3.11
python scripts/download_local_audio_models.py \
  --root ./avatar_models/local-audio \
  --model sensevoice-small

SenseVoiceSmall 走本地 FunASR adapter，支持上传音频和 WebSocket PCM 语音输入。短句场景下 CPU 通常可以满足实时交互。

验证¶

终端

curl -fsS http://127.0.0.1:8000/health
curl -s -X POST http://127.0.0.1:8000/sessions \
  -H 'content-type: application/json' \
  -d '{"avatar_id":"demo-avatar","model":"mock"}'

随后在前端麦克风流程中确认 session event stream 出现 STT 事件和 LLM 回复。