Speech-to-Text

利用 Google AI 将语音转成文本

通过简单易用的 API,将音频转换为文字转写,并将语音识别功能集成到应用中。

每月可免费使用长达 60 分钟的音频转写和分析功能。*新客户最��还可获享 $300 赠金,用于试用 Speech-to-Text 和其他 Google Cloud 产品。

*仅适用于使用 Speech-to-Text V1 API 处理音频。

功能

高级语音 AI

Speech-to-Text 可以利用 Chirp,这是 Google Cloud 的语音基础模型,使用数百万小时的音频数据和数十亿个文本句子训练而成。这与传统语音识别技术(侧重于大量特定于语言的监督数据)形成了鲜明对比。这些技术可以为用户提高识别和转录能力,从而更好地理解口语和口音。

支持 125 种语言和语言变体

通过广泛的语言支持打造全球用户群。转录短音频、长音频甚至流式传输的音频数据。Speech-to-Text 还利用新一代通用语音模型 Chirp,为用户提供更加准确、覆盖全球的翻译和识别。Chirp 使用数百万小时的音频和 280 亿个句子的文本(涵盖 100 多种语言)的自监督训练构建而成。

用于转写的预训练模型或可自定义的模型

多种经过训练的模型中进行选择,实现优化的语音控制、电话和视频转录,满足特定领域的质量要求。通过 Speech-to-Text 界面,轻松自定义、试验、创建和管理自定义资源。

开箱即用的监管和安全合规性

无需额外设置,Speech-to-Text API v2 即可帮助企业客户满足额外安全和监管要求。数据驻留支持通过完全区域化的服务(该服务接入至新加坡和比利时等 Google Cloud 区域)来调用转录模型。借助识别器应变性 (resourcefulness),您无需使用专用服务账号进行身份验证和授权。您可以在 Google Cloud 控制台中轻松查看关于资源生成和转写的日志。Speech-to-Text API v2 为所有资源以及批量转录提供使用客户管理的加密密钥的企业级加密。


AI 赋能的语音识别和转录

Speech-to-Text 使用模型自适应技术来提高常用字词的准确性、扩充可用于转录的词汇,并改善嘈杂音频的转录效果。模型自适应可让用户自定义 Speech-to-Text,使其能够更频繁地使用同音字词中的某一个而非建议的其他选项。例如,您可以让 Speech-to-Text 在转录时更多地使用“时常”而不是“时长”。

流式语音识别

在 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage 传输)时,获得实时语音识别结果。


语音自适应

通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。使用类别,自动将语音中的数字转换为地址、年份、货币或其他内容。

Speech-to-Text On-Prem

全面掌控您的基础架构和受保护的语音数据,同时在自己的本地私有数据中心利用 Google 的语音识别技术。与销售人员联系,开启体验之旅。

多通道识别

Speech-to-Text 可在多通道情况(例如视频会议)下识别不同的通道,并为转录内容添加注释以保留相应的顺序。

抗噪音干扰

Speech-to-Text 可处理来自各种环境的嘈杂音频,而无需额外的降噪措施。

特定领域的模型

多种经过训练的模型中进行选择,实现优化的语音控制、电话和视频转写,满足特定领域的质量要求。举例来说,我们的增强型电话模型针对来自电话的音频(例如以 8khz 采样率录制的电话通话)进行了优化。

内容过滤

脏话过滤器可帮助您检测音频数据中不当或不专业的内容,并滤除文本结果中的亵渎性字词。

转录评估

上传您自己的语音数据,并进行转录,而无需使用代码。通过配置迭代来评估质量。

自动加注标点符号(Beta 版)

Speech-to-Text 能够准确地为转录的文本加注标点符号,例如逗号、问号和句号。


讲话人区分

获得有关对话中哪位讲话者讲了哪句话的自动估测结果,了解有哪些人讲话以及分别说了什么。

工作方式

Speech-to-Text 有三种主要方法来执行语音识别:同步、异步和流式。每种方法都会根据后期处理中是否需要转录定期或实时返回文本结果。简而言之,您输入音频数据,然后接收基于文本的回复。

向应用添加语音转文字功能
了解如何将 Speech-to-Text 添加到应用

演示

试用 Speech-to-Text API

快速为上传的文件或直接对着麦克风的讲话创建音频转写内容。

常见用途

转录音频

创建音频转写内容

了解如何在 Cloud 控制台中使用 Speech-to-Text API 只通过几个步骤创建音频转写内容。您还可以转录短音频、长音频和流式音频

开始使用 Speech-to-Text
音频转写界面

创建音频转写内容

了解如何在 Cloud 控制台中使用 Speech-to-Text API 只通过几个步骤创建音频转写内容。您还可以转录短音频、长音频和流式音频

开始使用 Speech-to-Text
音频转写界面

使用 AI 为视频添加字幕

利用 AI 为视频创建字幕

转写音频和视频以添加字幕。为现有内容添加字幕,或实时向流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 视频字幕类似的机器学习技术。本教程介绍了如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕,以及提供其他语言的本地化字幕。

观看自动字幕教程
Speech-to-Text 字幕

利用 AI 为视频创建字幕

转写音频和视频以添加字幕。为现有内容添加字幕,或实时向流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 视频字幕类似的机器学习技术。本教程介绍了如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕,以及提供其他语言的本地化字幕。

观看自动字幕教程
Speech-to-Text 字幕

将 Speech-to-Text 添加到应用

如何将 Speech-to-Text 添加到应用

了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API,您可以快速轻松地为应用启用 AI。

观看示例视频
由 Google AI 和 API 界面提供支持的高级转写功能

如何将 Speech-to-Text 添加到应用

了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API,您可以快速轻松地为应用启用 AI。

观看示例视频
由 Google AI 和 API 界面提供支持的高级转写功能

将音频转换为文本

利用 Google Cloud API 处理语言、语音、文本和翻译

在本课程中,您将使用 Speech-to-Text API 将音频文件转录为文本文件,使用 Google Cloud Translation API 进行翻译,并使用 Natural Language AI 创建合成语音。

开始学习课程
Speech-to-Text 课程

利用 Google Cloud API 处理语言、语音、文本和翻译

在本课程中,您将使用 Speech-to-Text API 将音频文件转录为文本文件,使用 Google Cloud Translation API 进行翻译,并使用 Natural Language AI 创建合成语音。

开始学习课程
Speech-to-Text 课程

价格

Speech-to-Text 的定价方式Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用(例如存储费用)。
API 版本服务和功能价格

Speech-to-Text V1 API

V1 仅针对多区域提供数据驻留。提供的模型包括短音频、长音频、电话通话和视频。V1 不包括审核日志记录。新客户可获享 $300 赠金以及每月 60 分钟的免费音频转录和分析服务,不计入赠金额度。

$0.024

每分钟

Speech-to-Text V2 API


V2 为多区域和单区域提供数据驻留。模型包括短音频、长音频、电话通话、视频和 Chirp。V2 包含审核日志记录,并支持客户管理的加密密钥。

$0.016

每分钟

查看 Speech-to-Text 的价格详情

Speech-to-Text 的定价方式

Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用(例如存储费用)。

Speech-to-Text V1 API

服务和功能

V1 仅针对多区域提供数据驻留。提供的模型包括短音频、长音频、电话通话和视频。V1 不包括审核日志记录。新客户可获享 $300 赠金以及每月 60 分钟的免费音频转录和分析服务,不计入赠金额度。

价格

$0.024

每分钟

Speech-to-Text V2 API


服务和功能

V2 为多区域和单区域提供数据驻留。模型包括短音频、长音频、电话通话、视频和 Chirp。V2 包含审核日志记录,并支持客户管理的加密密钥。

价格

$0.016

每分钟

查看 Speech-to-Text 的价格详情

价格计算器

估算您的每月 Speech-To-Text 费用,包括特定于区域的价格和费用。

定制报价

请与我们的销售团队联系,获取为贵组织量身定制的报价。

开始概念验证

新客户最高可获享 $300 赠金,用于试用 Speech-to-Text 和其他 Google Cloud 产品

有一个大型项目?

Speech-to-Text On-Prem

Speech-to-Text 基础知识

Speech-to-Text 代码示例

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台
Google Cloud