此端点在现有器乐音轨上叠加AI生成的人声。通过提示词(如歌词概念或音乐情绪)和可选音频,生成与提供音轨和谐的人声输出。
uploadUrl 指定要处理的音频文件URLprompt 定义歌词内容和演唱方式style 和 negativeTags 用于控制音乐和人声风格model 用于指定生成的AI模型版本negativeTags 用于排除不需要的元素text(文本生成)、first(第一首完成)、complete(全部完成)所有接口都需要通过 Bearer Token 方式进行认证。
获取 API Key:
使用方式: 在请求头中添加: Authorization: Bearer YOUR_API_KEY
注意事项:
生成音频的提示词。通常是描述音频内容的文本,用于指导人声演唱的内容和风格。
"A calm and relaxing piano track."
音乐的标题。将显示在播放器界面和文件名中。
"Relaxing Piano"
排除的音乐风格。用于避免在生成的音乐中包含特定的风格或元素。
"重金属, 强节奏鼓点"
音乐的风格。如爵士、电子、古典等音乐类型。
"Jazz"
上传的音频文件URL。指定要为其添加人声的源音频文件位置。
"https://example.com/music.mp3"
用于接收人声生成任务完成更新的URL地址。所有人声生成请求都需要此参数。
text(文本生成)、first(第一首完成)、complete(全部完成)"https://example.com/callback"
用于生成的AI模型版本。
V5: 更卓越的音乐表现力,生成速度更快。V4_5PLUS:V4.5+ 音色更丰富,新的创作方式。V4_5PLUS, V5 "V4_5PLUS"
人声性别偏好。可选。'm' 表示男声,'f' 表示女声。根据实践,此参数只能加强概率,但不能保证一定遵循男女声的指令。
m, f "m"
对指定风格的遵循强度。可选。范围 0–1,保留两位小数。
0 <= x <= 1Must be a multiple of 0.010.61
控制实验性/创意偏离程度。可选。范围 0–1,保留两位小数。
0 <= x <= 1Must be a multiple of 0.010.72
音频要素相对权重。可选。范围 0–1,保留两位小数。
0 <= x <= 1Must be a multiple of 0.010.65
请求成功
响应状态码
200, 401, 402, 404, 409, 422, 429, 451, 455, 500 当 code != 200 时的错误信息
"success"