OpenAI Audio Transcriptions

语音转文本接口，用于上传音频并返回识别文本。

接口信息

项目	值
方法	`POST`
路径	`/v1/audio/transcriptions`
完整地址	`https://api.gemai.cc/v1/audio/transcriptions`
鉴权	`Authorization: Bearer sk-你的令牌`
Content-Type	`multipart/form-data`

请求字段示例

字段	说明
`model`	语音识别模型
`file`	音频文件
`language`	语音语言，可选

代码示例

cURLJavaScriptPython

bash

curl --location 'https://api.gemai.cc/v1/audio/transcriptions' \
  --header "Authorization: Bearer $GEMAI_API_KEY" \
  --form 'model="whisper-1"' \
  --form 'file=@"./audio.mp3"' \
  --form 'language="zh"'

javascript

import fs from 'node:fs'

const form = new FormData()
form.append('model', 'whisper-1')
form.append('language', 'zh')
form.append('file', new Blob([fs.readFileSync('./audio.mp3')]), 'audio.mp3')

const response = await fetch('https://api.gemai.cc/v1/audio/transcriptions', {
  method: 'POST',
  headers: {
    Authorization: `Bearer ${process.env.GEMAI_API_KEY}`,
  },
  body: form,
})

console.log(await response.json())

python

import os
import requests

with open('audio.mp3', 'rb') as audio:
    response = requests.post(
        'https://api.gemai.cc/v1/audio/transcriptions',
        headers={'Authorization': f"Bearer {os.environ['GEMAI_API_KEY']}"},
        data={'model': 'whisper-1', 'language': 'zh'},
        files={'file': audio},
        timeout=120,
    )

response.raise_for_status()
print(response.json()['text'])

返回示例

json

{
  "text": "你好，欢迎使用哈基米 API。"
}

注意事项

上传音频时不要手动设置 Content-Type: application/json。
长音频建议先压缩或切分后再识别。

对话与响应

图像

音频

向量

Flux 出图

通用异步视频

Sora-2

seedance2.0

视频生成（豆包原生）

视频生成（OpenAI 兼容）

视频内容

OpenAI Audio Transcriptions

接口信息

请求字段示例

代码示例

返回示例

注意事项

视频生成（豆包原生）

视频生成（OpenAI 兼容）

视频内容

OpenAI Audio Transcriptions ​

接口信息 ​

请求字段示例 ​

代码示例 ​

返回示例 ​

注意事项 ​

OpenAI Audio Transcriptions

接口信息

请求字段示例

代码示例

返回示例

注意事项