使用 Google Cloud 控制台将语音转录为文字
此快速入门为您介绍 Cloud Speech-to-Text 控制台。在本快速入门中,您将创建和优化转录,并了解如何在自己的应用中将此配置与 Speech-to-Text API 搭配使用。
如需了解如何使用 REST API 而非控制台发送请求和接收响应,请参阅准备工作页面。
准备工作
在开始使用 Speech-to-Text 控制台之前,您必须在 Google Cloud Platform Console 中启用 API。以下步骤将引导您完成后续操作:
- 在项目上启用 Speech-to-Text。
- 确保已针对 Speech-to-Text 启用结算功能。
设置您的 Google Cloud 项目
-
您可以选择现有项目,也可以创建一个新项目。如需详细了解如何创建项目,请参阅 Google Cloud Platform 文档。
如果您创建新项目,则系统会提示您将一个结算账号关联到该项目。如果您使用的是现有项目,请确保已启用结算功能。
选择项目并将其关联到结算账号后,您就可以启用 Speech-to-Text API。转到页面顶部的搜索产品和资源栏,然后输入“speech”。
从结果列表中选择 Cloud Speech-to-Text API。
要在不将其与项目关联的情况下试用 Speech-to-Text,请选择试用此 API 选项。如需启用 Speech-to-Text API 以用于您的项目,请点击启用。
创建转录
使用 Google Cloud 控制台创建新的转写:
音频配置
点击创建转录。
- 如果这是您第一次使用控制台,系统会要求您选择 Cloud Storage 中存储配置和转录的位置。
在创建转录页面中,上传源音频文件。您可以选择保存在 Cloud Storage 中的现有文件,也可以将新文件上传到指定的 Cloud Storage 目标位置。
选择上传的音频文件的编码类型。
指定其采样率。
点击继续。您将转到转录选项。
转录选项
选择源音频的语言代码。这是录音中使用的语言。
选择您要对该文件使用的转录模型。默认选项是预先选定的,通常不需要更改,但将模型与音频类型匹配可能会提高准确率。注意,模型费用各不相同。
点击继续。您将转到模型自适应。
模型自适应(可选)
如果源音频包含生僻字词、专有名词或专有术语等内容,导致识别出现问题,则模型自适应可能会有所帮助。
选中启用模型自适应。
选择一次性自适应资源。
添加相关短语并为其提供增强值。
在左侧列中,点击提交以创建转录。
查看转录
创建转录可能需要几分钟到数小时,具体取决于音频文件的大小。创建转录后,即可进行查看。按时间戳对表进行排序有助于您轻松找到最近的转录。
点击要查看的转录的名称。
将转录文本与音频文件进行比较。
如果您要进行更改,请点击重复使用配置。系统会将您转到创建转录流,其中预先选择了相同的选项,这样您就可以根据需要更改一些内容、创建新的转录并比较结果。
后续步骤
- 练习转录短音频文件。
- 了解如何批量处理长音频文件以进行语音识别。
- 了解如何转录流式音频,例如来自麦克风的音频。
- 通过使用 Speech-to-Text 客户端库,以您选择的语言开始使用 Speech-to-Text。
- 上手体验示例应用。
- 如需了解关于最佳性能、准确度和其他方面的提示,请参阅最佳做法文档。