Skip to content

OpenAI Audio Transcriptions

语音转文本接口,用于上传音频并返回识别文本。

接口信息

项目
方法POST
路径/v1/audio/transcriptions
完整地址https://api.gemai.cc/v1/audio/transcriptions
鉴权Authorization: Bearer sk-你的令牌
Content-Typemultipart/form-data

请求字段示例

字段说明
model语音识别模型
file音频文件
language语音语言,可选

代码示例

bash
curl --location 'https://api.gemai.cc/v1/audio/transcriptions' \
  --header "Authorization: Bearer $GEMAI_API_KEY" \
  --form 'model="whisper-1"' \
  --form 'file=@"./audio.mp3"' \
  --form 'language="zh"'
javascript
import fs from 'node:fs'

const form = new FormData()
form.append('model', 'whisper-1')
form.append('language', 'zh')
form.append('file', new Blob([fs.readFileSync('./audio.mp3')]), 'audio.mp3')

const response = await fetch('https://api.gemai.cc/v1/audio/transcriptions', {
  method: 'POST',
  headers: {
    Authorization: `Bearer ${process.env.GEMAI_API_KEY}`,
  },
  body: form,
})

console.log(await response.json())
python
import os
import requests

with open('audio.mp3', 'rb') as audio:
    response = requests.post(
        'https://api.gemai.cc/v1/audio/transcriptions',
        headers={'Authorization': f"Bearer {os.environ['GEMAI_API_KEY']}"},
        data={'model': 'whisper-1', 'language': 'zh'},
        files={'file': audio},
        timeout=120,
    )

response.raise_for_status()
print(response.json()['text'])

返回示例

json
{
  "text": "你好,欢迎使用哈基米 API。"
}

注意事项

  • 上传音频时不要手动设置 Content-Type: application/json
  • 长音频建议先压缩或切分后再识别。