音效生成

用一句话生成音效——适用于游戏、影视、UI 反馈、播客与短视频。

POST /v1/audio/sound_effect_generate 稳定 v0.2 更新于 2026 年 4 月 18 日

限制与约束

由边缘网关强制执行，超出任一限制将返回 413 Payload Too Large 或 422 Validation Error—— 参见 §05。

单次时长

5秒

固定 5 秒

Prompt 长度

无限制

中文 / 英文混排

变体数量

1–4条 / 次

并行合成，独立随机种子

速率限制

10req/min

Standard 计划，可升配

性能指标

单机性能 · 1× RTX 5090 · 每次请求生成 4 个变体 · cfg = 4.5。

端到端延迟 · 并发请求数 → 延迟 (s) P50 P99

单请求 · P50

1.5 s

空载下生成 4 个变体的端到端耗时

16 路并发 · P99

7 s

实测 0 错误

在线体验

实时 · POST /v1/audio/sound_effect_generate

文本提示

引导强度

4.5

变体数

输出结果

点击 生成音效，结果会出现在这里。

⌘/Ctrl + ↵ 快捷提交

请求与响应

单次请求生成一条音频；在客户端并行发起多个请求即可获得多个变体。响应体是原始的 audio/wav 字节流（48 kHz, 16-bit, stereo）。

请求参数 body.args

字段

类型

说明

prompt*

string

文字描述。中英文均可，长度不限。描述越具体，生成越可控。

cfg

float

Classifier-Free Guidance。0–10，值越大越贴合描述但更易失真。 default: 4.5

seed

int32

随机种子，用于可复现结果。省略则每次随机。

int (1–4)

一次请求生成的变体数。n=1 返回 audio/flac 流；n≥2 返回 application/json {count, sample_rate, format, audios:[base64...]}。 default: 1

错误码

所有错误响应为 application/json，结构为 { code, message, request_id }。

400

BAD_REQUEST

JSON 结构校验失败，通常为字段拼写错误或缺失 args.prompt。

401

UNAUTHORIZED

Authorization 头缺失或 token 已过期。

413

PAYLOAD_TOO_LARGE

请求体超限。参见 §01。

422

VALIDATION_ERROR

参数在合法类型但超出取值范围，例如 cfg = 12。

429

RATE_LIMITED

超出 10 req/min。响应头含 Retry-After。

503

QUEUE_FULL

推理队列饱和。客户端应指数回退重试。

AI 集成 — 一键复制提示词

将预制的、经过实战验证的提示词复制到 Claude Code、Cursor 或 Codex 中，一分钟内即可完成集成。提示词涵盖接口契约、鉴权、重试、错误处理，以及配套的 TypeScript / Python 脚手架代码。

AI-READY PROMPT

— tokens

用 AI 快速集成

已在主流编码 Agent 上测试通过。包含 API 结构、认证、重试、错误处理和示例输入/输出。只需粘贴并说 "用我的技术栈实现这个"。

音效广场

社区用户生成并公开分享的示例，所有 prompt 可以直接拿来改写。

音效生成

限制与约束

性能指标

在线体验

请求与响应

请求参数 body.args

错误码

AI 集成 — 一键复制提示词

用 AI 快速集成

音效广场

Sound Effect Generation

Limits & Constraints

Performance

Try It Live

Request & Response

Request parameters body.args

Errors

AI Integration — Copy-to-Prompt

Integrate fast with AI

Sound Effects Plaza