音效生成

一句话生成音效——适用于游戏、影视、UI 反馈、播客与短视频。

POST /v1/audio/sound_effect_generate 稳定 v0.2 更新于 2026 年 4 月 18 日
01

限制与约束

由边缘网关强制执行,超出任一限制将返回 413 Payload Too Large422 Validation Error—— 参见 §05

单次时长
5
固定 5 秒
Prompt 长度
限制
中文 / 英文混排
变体数量
1–4条 / 次
并行合成,独立随机种子
速率限制
10req/min
Standard 计划,可升配
02

性能指标

单机性能 · 1× RTX 5090 · 每次请求生成 4 个变体 · cfg = 4.5

端到端延迟   ·   并发请求数 → 延迟 (s) P50 P99
单请求 · P50
1.5 s
空载下生成 4 个变体的端到端耗时
16 路并发 · P99
7 s
实测 0 错误
03

在线体验

实时 · POST /v1/audio/sound_effect_generate
4.5
2
点击 生成音效,结果会出现在这里。
⌘/Ctrl + ↵ 快捷提交
04

请求与响应

单次请求生成一条音频;在客户端并行发起多个请求即可获得多个变体。响应体是原始的 audio/wav 字节流(48 kHz, 16-bit, stereo)。



      

请求参数 body.args

字段
类型
说明
prompt*
string
文字描述。中英文均可,长度不限。描述越具体,生成越可控。
cfg
float
Classifier-Free Guidance。0–10,值越大越贴合描述但更易失真。 default: 4.5
seed
int32
随机种子,用于可复现结果。省略则每次随机。
n
int (1–4)
一次请求生成的变体数。n=1 返回 audio/flac 流;n≥2 返回 application/json {count, sample_rate, format, audios:[base64...]}default: 1
05

错误码

所有错误响应为 application/json,结构为 { code, message, request_id }

400
BAD_REQUEST
JSON 结构校验失败,通常为字段拼写错误或缺失 args.prompt
401
UNAUTHORIZED
Authorization 头缺失或 token 已过期。
413
PAYLOAD_TOO_LARGE
请求体超限。参见 §01。
422
VALIDATION_ERROR
参数在合法类型但超出取值范围,例如 cfg = 12
429
RATE_LIMITED
超出 10 req/min。响应头含 Retry-After
503
QUEUE_FULL
推理队列饱和。客户端应指数回退重试。
06

AI 集成 — 一键复制提示词

将预制的、经过实战验证的提示词复制到 Claude Code、Cursor 或 Codex 中,一分钟内即可完成集成。提示词涵盖接口契约、鉴权、重试、错误处理,以及配套的 TypeScript / Python 脚手架代码。

AI-READY PROMPT
tokens

用 AI 快速集成

已在主流编码 Agent 上测试通过。包含 API 结构、认证、重试、错误处理和示例输入/输出。只需粘贴并说 "用我的技术栈实现这个"



        
07

音效广场

社区用户生成并公开分享的示例,所有 prompt 可以直接拿来改写。