Coba Gemini 1.5 Pro, model multimodal tercanggih kami di Vertex AI, dan lihat solusi yang dapat Anda bangun dengan jendela konteks token 1 juta.

Speech-to-Text

Mengubah ucapan menjadi teks menggunakan AI Google

Konversi audio menjadi transkripsi teks dan integrasikan pengenalan ucapan ke dalam aplikasi dengan API yang mudah digunakan.

Dapatkan gratis hingga 60 menit untuk membuat transkripsi dan menganalisis audio per bulan.* Pelanggan baru juga mendapatkan kredit gratis senilai hingga $300 untuk mencoba Speech-to-Text dan produk Google Cloud lainnya.

Mulai mentranskripsi Hubungi bagian penjualan

*Berlaku untuk pemrosesan audio dengan Speech-to-Text V1 API saja.

Fitur

AI ucapan tingkat lanjut

Speech-to-Text dapat memanfaatkan Chirp, yakni model dasar Google Cloud untuk ucapan yang dilatih dengan data audio berdurasi jutaan jam dan miliaran kalimat teks. Hal ini berbeda dengan teknik pengenalan ucapan tradisional yang berfokus pada sejumlah besar data yang diawasi untuk bahasa tertentu. Teknik ini memberi pengguna pengenalan dan transkripsi yang lebih baik untuk aksen dan bahasa yang lebih sering diucapkan.

Dukungan untuk 125 bahasa dan varian

Dibangun untuk basis pengguna global dengan dukungan bahasa yang ekstensif Transkripsikan data audio singkat, panjang, dan bahkan streaming. Speech-to-Text juga menawarkan terjemahan dan pengenalan yang lebih akurat serta mencakup seluruh dunia dengan Chirp, model ucapan universal generasi berikutnya. Chirp dibuat menggunakan pelatihan yang diawasi secara mandiri dengan audio berdurasi jutaan jam dan 28 miliar kalimat teks yang mencakup lebih dari 100 bahasa.

Mentranskripsikan audio pendek, panjang, atau streaming

Lihat panduan

Model terlatih atau model yang dapat disesuaikan untuk transkripsi

Pilih dari sejumlah model terlatih untuk kontrol suara, panggilan telepon, dan transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain. Menyesuaikan, bereksperimen, membuat, dan mengelola resource khusus dengan mudah menggunakan UI Speech-to-Text.

Kepatuhan terhadap peraturan dan keamanan siap pakai

Speech-to-Text API v2 memberikan persyaratan keamanan dan peraturan tambahan secara langsung kepada pelanggan perusahaan dan bisnis. Residensi data memungkinkan pemanggilan model transkripsi melalui layanan yang sepenuhnya bersifat regional yang memanfaatkan region Google Cloud seperti Singapura dan Belgia. Kecanggihan pengenal menghilangkan kebutuhan akan akun layanan khusus untuk autentikasi dan otorisasi. Log untuk pembuatan resource dan transkripsi tersedia dengan mudah di Konsol Google Cloud. Selain itu, Speech-to-Text API v2 menawarkan enkripsi tingkat perusahaan dengan kunci enkripsi yang dikelola pelanggan untuk semua resource serta transkripsi batch.

Transkripsi dan pengenalan ucapan yang didukung AI

Speech-to-Text menggunakan adaptasi model untuk meningkatkan akurasi kata yang sering digunakan, memperluas kosakata yang tersedia untuk transkripsi, dan meningkatkan transkripsi dari audio yang bising. Adaptasi model memungkinkan pengguna menyesuaikan Speech-to-Text untuk lebih sering mengenali kata atau frasa tertentu daripada opsi lain yang mungkin disarankan. Misalnya, Anda dapat membiaskan Speech-to-Text untuk mentranskripsikan "weather" daripada "whether".

Pengenalan ucapan saat streaming

Dapatkan hasil pengenalan ucapan real-time saat API memproses input audio yang di-streaming dari mikrofon aplikasi Anda atau dikirim dari file audio yang direkam sebelumnya (inline atau melalui Cloud Storage).

Adaptasi ucapan

Sesuaikan pengenalan ucapan untuk mentranskripsikan istilah khusus domain dan kata-kata langka dengan memberikan petunjuk dan meningkatkan akurasi transkripsi terhadap kata atau frasa tertentu. Konversi angka yang diucapkan menjadi alamat, tahun, mata uang, dan lainnya secara otomatis menggunakan class.

Speech-to-Text On-Prem

Miliki kontrol penuh atas infrastruktur Anda dan data ucapan yang dilindungi sambil memanfaatkan teknologi pengenalan ucapan Google di infrastruktur lokal, langsung di pusat data pribadi Anda. Hubungi bagian penjualan untuk memulai.

Pengenalan multisaluran

Speech-to-Text dapat mengenali saluran yang berbeda dalam situasi multisaluran (misalnya, konferensi video) dan menganotasi transkrip untuk mempertahankan urutan.

Penanganan kebisingan yang andal

Speech-to-Text dapat menangani audio bising dari berbagai lingkungan tanpa memerlukan peredam bising tambahan.

Model khusus domain

Pilih dari sejumlah model terlatih untuk kontrol suara dan panggilan telepon serta transkripsi video yang dioptimalkan untuk persyaratan kualitas khusus domain. Misalnya, model panggilan telepon kami yang canggih telah disesuaikan untuk audio yang berasal dari telepon, seperti panggilan telepon yang direkam pada frekuensi sampling 8 kHz.

Pemfilteran konten

Filter kata-kata tidak sopan membantu Anda mendeteksi konten yang tidak pantas atau tidak profesional dalam data audio Anda dan memfilter kata-kata tidak sopan dalam hasil teks.

Evaluasi transkripsi

Upload data suara Anda sendiri dan transkripsikan tanpa kode. Evaluasi kualitas dengan melakukan iterasi pada konfigurasi Anda.

Tanda baca otomatis (beta)

Speech-to-Text akan memberikan tanda baca dalam transkripsinya secara akurat, seperti dengan memberikan koma, tanda tanya, dan titik.

Diarisasi pembicara

Ketahui siapa yang berbicara dengan menerima prediksi otomatis terkait pembicara mana yang berbicara dalam percakapan.

Cara Kerjanya

Speech-to-Text memiliki tiga metode utama untuk melakukan pengenalan ucapan: sinkron, asinkron, dan streaming. Setiap metode menampilkan hasil teks berdasarkan perlu tidaknya transkripsi secara real time, berkala, atau pascapemrosesan. Sederhananya, Anda memasukkan data audio kemudian menerima respons berbasis teks.

Lihat dokumentasi

Pelajari cara menambahkan Speech-to-Text ke aplikasi Anda

Demo

Menguji Speech-to-Text API

Buat transkripsi audio dengan cepat dari file yang diupload atau berbicara langsung ke mikrofon.

Penggunaan Umum

Mentranskripsikan audio

Membuat transkripsi audio

Pelajari cara menggunakan Speech-to-Text API dari dalam Konsol Cloud dengan membuat transkripsi audio hanya dalam beberapa langkah. Anda juga dapat mentranskripsikan audio singkat, panjang, dan streaming.

Mulai menggunakan Speech-to-Text

Tutorial, panduan memulai, dan lab

Membuat transkripsi audio

Pelajari cara menggunakan Speech-to-Text API dari dalam Konsol Cloud dengan membuat transkripsi audio hanya dalam beberapa langkah. Anda juga dapat mentranskripsikan audio singkat, panjang, dan streaming.

Mulai menggunakan Speech-to-Text

Membuat teks video menggunakan AI

Buat subtitel untuk video menggunakan AI

Transkripsikan audio dan video Anda untuk menyertakan teks. Tambahkan subtitel ke konten yang ada atau secara real time ke konten streaming. Model transkripsi video kami ideal untuk mengindeks atau memberi subtitel pada video dan/atau konten yang melibatkan banyak pembicara. Model ini menggunakan teknologi machine learning yang prinsipnya sama dengan pemberian teks video di YouTube. Tutorial ini menunjukkan cara menggunakan layanan Google Cloud AI Speech-to-Text API dan Translation API untuk menambahkan subtitel ke video dan menyediakan subtitel lokal dalam bahasa lain.

Tonton tutorial subtitel otomatis

Tutorial, panduan memulai, dan lab

Buat subtitel untuk video menggunakan AI

Transkripsikan audio dan video Anda untuk menyertakan teks. Tambahkan subtitel ke konten yang ada atau secara real time ke konten streaming. Model transkripsi video kami ideal untuk mengindeks atau memberi subtitel pada video dan/atau konten yang melibatkan banyak pembicara. Model ini menggunakan teknologi machine learning yang prinsipnya sama dengan pemberian teks video di YouTube. Tutorial ini menunjukkan cara menggunakan layanan Google Cloud AI Speech-to-Text API dan Translation API untuk menambahkan subtitel ke video dan menyediakan subtitel lokal dalam bahasa lain.

Tonton tutorial subtitel otomatis

Menambahkan Speech-to-Text ke aplikasi

Cara menambahkan Speech-to-Text ke aplikasi

Pelajari cara mengaktifkan Speech-to-Text untuk aplikasi Anda dengan cepat dan mudah menggunakan Google Cloud. Video ini membahas cara menambahkan AI ke aplikasi Anda tanpa memerlukan pengalaman model machine learning yang ekstensif. Dengan menggunakan Speech-to-Text API yang terlatih sebelumnya, Anda dapat mengaktifkan AI untuk aplikasi Anda dengan cepat dan mudah.

Tonton video contoh

Transkripsi lanjutan yang didukung teknologi AI Google dan UI API

Menambahkan kontrol suara ke aplikasi

Tutorial, panduan memulai, dan lab

Cara menambahkan Speech-to-Text ke aplikasi

Pelajari cara mengaktifkan Speech-to-Text untuk aplikasi Anda dengan cepat dan mudah menggunakan Google Cloud. Video ini membahas cara menambahkan AI ke aplikasi Anda tanpa memerlukan pengalaman model machine learning yang ekstensif. Dengan menggunakan Speech-to-Text API yang terlatih sebelumnya, Anda dapat mengaktifkan AI untuk aplikasi Anda dengan cepat dan mudah.

Tonton video contoh

Menambahkan kontrol suara ke aplikasi

Terjemahkan audio ke teks

Bahasa, ucapan, teks, dan terjemahan dengan Google Cloud API

Dalam kursus ini, Anda akan menggunakan Speech-to-Text API untuk mentranskripsikan file audio menjadi file teks, menerjemahkannya dengan Google Cloud Translation API, dan membuat ucapan sintetis dengan Natural Language AI.

Mulai kursus

Lihat bahasa yang didukung
Pelajari Google Cloud Translation lebih lanjut

Tutorial, panduan memulai, dan lab

Bahasa, ucapan, teks, dan terjemahan dengan Google Cloud API

Dalam kursus ini, Anda akan menggunakan Speech-to-Text API untuk mentranskripsikan file audio menjadi file teks, menerjemahkannya dengan Google Cloud Translation API, dan membuat ucapan sintetis dengan Natural Language AI.

Mulai kursus

Lihat bahasa yang didukung
Pelajari Google Cloud Translation lebih lanjut

Harga

Cara kerja penetapan harga Speech-to-Text	Harga Speech-to-Text didasarkan pada versi API, saluran, metode batch, dan biaya layanan Google Cloud tambahan seperti penyimpanan.
Versi API	Layanan dan kemampuan	Harga
Speech-to-Text V1 API	V1 menawarkan residensi data hanya untuk multi-region. Model mencakup audio singkat, audio panjang, panggilan telepon, dan video. V1 tidak menyertakan logging audit. Pelanggan baru mendapatkan kredit gratis senilai $300 dan waktu 60 menit untuk mentranskripsikan dan menganalisis audio gratis per bulan, tidak ditagihkan ke kredit Anda.	$0,024 per menit
Speech-to-Text V2 API	V2 menawarkan residensi data untuk multi-region dan satu region. Model mencakup audio singkat, audio panjang, telepon, video, dan Chirp. V2 menyertakan logging audit dan dukungan untuk kunci enkripsi yang dikelola pelanggan.	$0,016 per menit

Cara kerja penetapan harga Speech-to-Text

Harga Speech-to-Text didasarkan pada versi API, saluran, metode batch, dan biaya layanan Google Cloud tambahan seperti penyimpanan.

Versi API

Layanan dan kemampuan

Harga

Speech-to-Text V1 API

V1 menawarkan residensi data hanya untuk multi-region. Model mencakup audio singkat, audio panjang, panggilan telepon, dan video. V1 tidak menyertakan logging audit. Pelanggan baru mendapatkan kredit gratis senilai $300 dan waktu 60 menit untuk mentranskripsikan dan menganalisis audio gratis per bulan, tidak ditagihkan ke kredit Anda.

$0,024

per menit

Speech-to-Text V2 API

V2 menawarkan residensi data untuk multi-region dan satu region. Model mencakup audio singkat, audio panjang, telepon, video, dan Chirp. V2 menyertakan logging audit dan dukungan untuk kunci enkripsi yang dikelola pelanggan.

$0,016

per menit

Lihat detail harga untuk Speech-to-Text.

Cara kerja penetapan harga Speech-to-Text

Harga Speech-to-Text didasarkan pada versi API, saluran, metode batch, dan biaya layanan Google Cloud tambahan seperti penyimpanan.

Speech-to-Text V1 API

Layanan dan kemampuan

V1 menawarkan residensi data hanya untuk multi-region. Model mencakup audio singkat, audio panjang, panggilan telepon, dan video. V1 tidak menyertakan logging audit. Pelanggan baru mendapatkan kredit gratis senilai $300 dan waktu 60 menit untuk mentranskripsikan dan menganalisis audio gratis per bulan, tidak ditagihkan ke kredit Anda.

Harga

$0,024

per menit

Speech-to-Text V2 API

Layanan dan kemampuan

V2 menawarkan residensi data untuk multi-region dan satu region. Model mencakup audio singkat, audio panjang, telepon, video, dan Chirp. V2 menyertakan logging audit dan dukungan untuk kunci enkripsi yang dikelola pelanggan.

Harga

$0,016

per menit

Lihat detail harga untuk Speech-to-Text.

Kalkulator harga

Perkirakan biaya Speech-To-Text bulanan Anda, termasuk harga dan biaya khusus per region.

Perkirakan biaya

Penawaran kustom

Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus bagi organisasi Anda.

Minta penawaran harga

Memulai bukti konsep Anda

Pelanggan baru akan mendapatkan kredit gratis senilai hingga $300 untuk mencoba Speech-to-Text dan produk Google Cloud lainnya

Mulai secara gratis

Speech-to-Text

Mengubah ucapan menjadi teks menggunakan AI Google

Highlight produk

AI ucapan tingkat lanjut

Dukungan untuk 125 bahasa dan varian

Model terlatih atau model yang dapat disesuaikan untuk transkripsi

Kepatuhan terhadap peraturan dan keamanan siap pakai

Transkripsi dan pengenalan ucapan yang didukung AI

Pengenalan ucapan saat streaming

Adaptasi ucapan

Speech-to-Text On-Prem

Pengenalan multisaluran

Penanganan kebisingan yang andal

Model khusus domain

Pemfilteran konten

Evaluasi transkripsi

Tanda baca otomatis (beta)

Diarisasi pembicara

Menguji Speech-to-Text API

Mentranskripsikan audio

Membuat transkripsi audio

Tutorial, panduan memulai, dan lab

Membuat transkripsi audio

Membuat teks video menggunakan AI

Buat subtitel untuk video menggunakan AI

Tutorial, panduan memulai, dan lab

Buat subtitel untuk video menggunakan AI

Menambahkan Speech-to-Text ke aplikasi

Cara menambahkan Speech-to-Text ke aplikasi

Tutorial, panduan memulai, dan lab

Cara menambahkan Speech-to-Text ke aplikasi

Terjemahkan audio ke teks

Bahasa, ucapan, teks, dan terjemahan dengan Google Cloud API

Tutorial, panduan memulai, dan lab

Bahasa, ucapan, teks, dan terjemahan dengan Google Cloud API

Kalkulator harga

Penawaran kustom

Memulai bukti konsep Anda

Pelanggan baru akan mendapatkan kredit gratis senilai hingga $300 untuk mencoba Speech-to-Text dan produk Google Cloud lainnya

Punya proyek besar?

Speech-to-Text On-Prem

Dasar-dasar Speech-to-Text

Contoh kode Speech-to-Text