请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。

Speech-to-Text

利用 Google AI 将语音转成文本

通过简单易用的 API，将音频转换为文字转写，并将语音识别功能集成到应用中。

每月可免费使用长达 60 分钟的音频转写和分析功能。*新客户最��还可获享 $300 赠金，用于试用 Speech-to-Text 和其他 Google Cloud 产品。

*仅适用于使用 Speech-to-Text V1 API 处理音频。

功能

高级语音 AI

Speech-to-Text 可以利用 Chirp，这是 Google Cloud 的语音基础模型，使用数百万小时的音频数据和数十亿个文本句子训练而成。这与传统语音识别技术（侧重于大量特定于语言的监督数据）形成了鲜明对比。这些技术可以为用户提高识别和转录能力，从而更好地理解口语和口音。

支持 125 种语言和语言变体

通过广泛的语言支持打造全球用户群。转录短音频、长音频甚至流式传输的音频数据。Speech-to-Text 还利用新一代通用语音模型 Chirp，为用户提供更加准确、覆盖全球的翻译和识别。Chirp 使用数百万小时的音频和 280 亿个句子的文本（涵盖 100 多种语言）的自监督训练构建而成。

转录短音频、长音频或流式音频

查看指南

用于转写的预训练模型或可自定义的模型

从多种经过训练的模型中进行选择，实现优化的语音控制、电话和视频转录，满足特定领域的质量要求。通过 Speech-to-Text 界面，轻松自定义、试验、创建和管理自定义资源。

开箱即用的监管和安全合规性

无需额外设置，Speech-to-Text API v2 即可帮助企业客户满足额外安全和监管要求。数据驻留支持通过完全区域化的服务（该服务接入至新加坡和比利时等 Google Cloud 区域）来调用转录模型。借助识别器应变性 (resourcefulness)，您无需使用专用服务账号进行身份验证和授权。您可以在 Google Cloud 控制台中轻松查看关于资源生成和转写的日志。Speech-to-Text API v2 为所有资源以及批量转录提供使用客户管理的加密密钥的企业级加密。

AI 赋能的语音识别和转录

Speech-to-Text 使用模型自适应技术来提高常用字词的准确性、扩充可用于转录的词汇，并改善嘈杂音频的转录效果。模型自适应可让用户自定义 Speech-to-Text，使其能够更频繁地使用同音字词中的某一个而非建议的其他选项。例如，您可以让 Speech-to-Text 在转录时更多地使用“时常”而不是“时长”。

流式语音识别

在 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入（内嵌或通过 Cloud Storage 传输）时，获得实时语音识别结果。

语音自适应

通过提供提示来定制语音识别功能，以转录特定领域的术语和生僻字词，并提高特定字词或短语的转录准确率。使用类别，自动将语音中的数字转换为地址、年份、货币或其他内容。

Speech-to-Text On-Prem

全面掌控您的基础架构和受保护的语音数据，同时在自己的本地私有数据中心利用 Google 的语音识别技术。与销售人员联系，开启体验之旅。

多通道识别

Speech-to-Text 可在多通道情况（例如视频会议）下识别不同的通道，并为转录内容添加注释以保留相应的顺序。

抗噪音干扰

Speech-to-Text 可处理来自各种环境的嘈杂音频，而无需额外的降噪措施。

特定领域的模型

从多种经过训练的模型中进行选择，实现优化的语音控制、电话和视频转写，满足特定领域的质量要求。举例来说，我们的增强型电话模型针对来自电话的音频（例如以 8khz 采样率录制的电话通话）进行了优化。

内容过滤

脏话过滤器可帮助您检测音频数据中不当或不专业的内容，并滤除文本结果中的亵渎性字词。

转录评估

上传您自己的语音数据，并进行转录，而无需使用代码。通过配置迭代来评估质量。

自动加注标点符号（Beta 版）

Speech-to-Text 能够准确地为转录的文本加注标点符号，例如逗号、问号和句号。

讲话人区分

获得有关对话中哪位讲话者讲了哪句话的自动估测结果，了解有哪些人讲话以及分别说了什么。

工作方式

Speech-to-Text 有三种主要方法来执行语音识别：同步、异步和流式。每种方法都会根据后期处理中是否需要转录定期或实时返回文本结果。简而言之，您输入音频数据，然后接收基于文本的回复。

查看文档

了解如何将 Speech-to-Text 添加到应用

演示

试用 Speech-to-Text API

快速为上传的文件或直接对着麦克风的讲话创建音频转写内容。

常见用途

转录音频

创建音频转写内容

了解如何在 Cloud 控制台中使用 Speech-to-Text API 只通过几个步骤创建音频转写内容。您还可以转录短音频、长音频和流式音频。

开始使用 Speech-to-Text

教程、快速入门和实验

创建音频转写内容

了解如何在 Cloud 控制台中使用 Speech-to-Text API 只通过几个步骤创建音频转写内容。您还可以转录短音频、长音频和流式音频。

开始使用 Speech-to-Text

使用 AI 为视频添加字幕

利用 AI 为视频创建字幕

转写音频和视频以添加字幕。为现有内容添加字幕，或实时向流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕，该模型使用与 YouTube 视频字幕类似的机器学习技术。本教程介绍了如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕，以及提供其他语言的本地化字幕。

观看自动字幕教程

教程、快速入门和实验

利用 AI 为视频创建字幕

转写音频和视频以添加字幕。为现有内容添加字幕，或实时向流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕，该模型使用与 YouTube 视频字幕类似的机器学习技术。本教程介绍了如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕，以及提供其他语言的本地化字幕。

观看自动字幕教程

将 Speech-to-Text 添加到应用

如何将 Speech-to-Text 添加到应用

了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API，您可以快速轻松地为应用启用 AI。

观看示例视频

为应用添加语音控制功能

教程、快速入门和实验

如何将 Speech-to-Text 添加到应用

了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API，您可以快速轻松地为应用启用 AI。

观看示例视频

为应用添加语音控制功能

将音频转换为文本

利用 Google Cloud API 处理语言、语音、文本和翻译

在本课程中，您将使用 Speech-to-Text API 将音频文件转录为文本文件，使用 Google Cloud Translation API 进行翻译，并使用 Natural Language AI 创建合成语音。

开始学习课程

教程、快速入门和实验

利用 Google Cloud API 处理语言、语音、文本和翻译

在本课程中，您将使用 Speech-to-Text API 将音频文件转录为文本文件，使用 Google Cloud Translation API 进行翻译，并使用 Natural Language AI 创建合成语音。

开始学习课程

价格

Speech-to-Text 的定价方式	Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用（例如存储费用）。
API 版本	服务和功能	价格
Speech-to-Text V1 API	V1 仅针对多区域提供数据驻留。提供的模型包括短音频、长音频、电话通话和视频。V1 不包括审核日志记录。新客户可获享 $300 赠金以及每月 60 分钟的免费音频转录和分析服务，不计入赠金额度。	$0.024 每分钟
Speech-to-Text V2 API	V2 为多区域和单区域提供数据驻留。模型包括短音频、长音频、电话通话、视频和 Chirp。V2 包含审核日志记录，并支持客户管理的加密密钥。	$0.016 每分钟

Speech-to-Text 的定价方式

Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用（例如存储费用）。

API 版本

服务和功能

价格

Speech-to-Text V1 API

V1 仅针对多区域提供数据驻留。提供的模型包括短音频、长音频、电话通话和视频。V1 不包括审核日志记录。新客户可获享 $300 赠金以及每月 60 分钟的免费音频转录和分析服务，不计入赠金额度。

$0.024

每分钟

Speech-to-Text V2 API

V2 为多区域和单区域提供数据驻留。模型包括短音频、长音频、电话通话、视频和 Chirp。V2 包含审核日志记录，并支持客户管理的加密密钥。

$0.016

每分钟

查看 Speech-to-Text 的价格详情。

Speech-to-Text 的定价方式

Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用（例如存储费用）。

Speech-to-Text V1 API

服务和功能

V1 仅针对多区域提供数据驻留。提供的模型包括短音频、长音频、电话通话和视频。V1 不包括审核日志记录。新客户可获享 $300 赠金以及每月 60 分钟的免费音频转录和分析服务，不计入赠金额度。

价格

$0.024

每分钟

Speech-to-Text V2 API

服务和功能

V2 为多区域和单区域提供数据驻留。模型包括短音频、长音频、电话通话、视频和 Chirp。V2 包含审核日志记录，并支持客户管理的加密密钥。

价格

$0.016

每分钟

查看 Speech-to-Text 的价格详情。

价格计算器

估算您的每月 Speech-To-Text 费用，包括特定于区域的价格和费用。

估算费用

定制报价

请与我们的销售团队联系，获取为贵组织量身定制的报价。

询价

开始概念验证

Speech-to-Text

利用 Google AI 将语音转成文本

产品亮点

高级语音 AI

支持 125 种语言和语言变体

用于转写的预训练模型或可自定义的模型

开箱即用的监管和安全合规性

AI 赋能的语音识别和转录

流式语音识别

语音自适应

Speech-to-Text On-Prem

多通道识别

抗噪音干扰

特定领域的模型

内容过滤

转录评估

自动加注标点符号（Beta 版）

讲话人区分

Speech-to-Text 有三种主要方法来执行语音识别：同步、异步和流式。每种方法都会根据后期处理中是否需要转录定期或实时返回文本结果。简而言之，您输入音频数据，然后接收基于文本的回复。

试用 Speech-to-Text API

转录音频

创建音频转写内容

教程、快速入门和实验

创建音频转写内容

使用 AI 为视频添加字幕

利用 AI 为视频创建字幕

教程、快速入门和实验

利用 AI 为视频创建字幕

将 Speech-to-Text 添加到应用

如何将 Speech-to-Text 添加到应用

教程、快速入门和实验

如何将 Speech-to-Text 添加到应用

将音频转换为文本

利用 Google Cloud API 处理语言、语音、文本和翻译

教程、快速入门和实验

利用 Google Cloud API 处理语言、语音、文本和翻译

价格计算器

定制报价

开始概念验证

新客户最高可获享 $300 赠金，用于试用 Speech-to-Text 和其他 Google Cloud 产品

有一个大型项目？

Speech-to-Text On-Prem

Speech-to-Text 基础知识

Speech-to-Text 代码示例