欢迎加入我们的社区，一起测试和分享您的知识！

done

学习 700 多个动手实验和课程并获得相关技能徽章

Gemini 的多模态

实验 1 小时 universal_currency_alt 5 个积分 show_chart 中级

info 此实验可能会提供 AI 工具来支持您学习。

欢迎加入我们的社区，一起测试和分享您的知识！

done

学习 700 多个动手实验和课程并获得相关技能徽章

GSP1210

Google Cloud 自定进度实验

概览

Gemini 是 Google DeepMind 开发的一系列生成式 AI 模型，专为多模态应用场景而设计。通过 Gemini API，您可以使用 Gemini Pro Vision 和 Gemini Pro 模型。此实验着重展示 Gemini 可发挥作用的各种多模态应用场景。在本实验中，您将学习如何使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。

多模态

与纯文本 LLM 相比，Gemini Pro Vision 的多模态特性可用于许多新的应用场景：

使用文本和图片作为输入的示例应用场景有：

检测照片中的对象
理解屏幕和界面
理解绘画和抽象内容
理解各类图表
根据用户偏好推荐图片
比较不同图片以发现其相似、异常或不同之处

使用文本和视频作为输入的示例应用场景有：

生成视频说明
提取视频中对象的标签
提取视频中的精彩片断/相关讯息

目标

在本实验中，您将执行以下操作：

使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的，并且您无法暂停实验。计时器在您点击开始实验后即开始计时，显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动，免受模拟或演示环境的局限。我们会为您提供新的临时凭据，让您可以在实验规定的时间内用来登录和访问 Google Cloud。

为完成此实验，您需要：

能够使用标准的互联网浏览器（建议使用 Chrome 浏览器）。

注意：请使用无痕模式或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突，这种冲突可能导致您的个人账号产生额外费用。

完成实验的时间 - 请注意，实验开始后无法暂停。

注意：如果您已有自己的个人 Google Cloud 账号或项目，请不要在此实验中使用，以避免您的账号产生额外的费用。

如何开始实验并登录 Google Cloud 控制台

点击开始实验按钮。如果该实验需要付费，系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板，其中包含以下各项：
- 打开 Google Cloud 控制台按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息（如果需要）
点击打开 Google Cloud 控制台（如果您使用的是 Chrome 浏览器，请右键点击并选择在无痕式窗口中打开链接）。

该实验会启动资源并打开另一个标签页，显示登录页面。

提示：请将这些标签页安排在不同的窗口中，并将它们并排显示。
注意：如果您看见选择账号对话框，请点击使用其他账号。
如有必要，请复制下方的用户名，然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}}
您也可以在实验详细信息面板中找到用户名。
点击下一步。
复制下面的密码，然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}}
您也可以在实验详细信息面板中找到密码。
点击下一步。
重要提示：您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。注意：在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
继续在后续页面中点击以完成相应操作：
- 接受条款及条件。
- 由于该账号为临时账号，请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。

片刻之后，系统会在此标签页中��开 Google Cloud 控制台。

注意：如需查看列有 Google Cloud 产品和服务的菜单，请点击左上角的导航菜单。导航菜单图标

启用所有推荐的 API

在 Google Cloud 控制台的导航菜单中，点击 Vertex AI。
点击启用所有推荐的 API。

任务 1. 在 Vertex AI Workbench 中打开笔记本

在 Google Cloud 控制台的导航菜单中依次点击 Vertex AI > Workbench。
找到实例，然后点击 Open JupyterLab（打开 JupyterLab）按钮。

Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。

任务 2. 设置笔记本

点击文件。
在选择内核对话框中，从可用内核列表中选择 Python 3。
运行笔记本的开始使用和导入库部分。
- 对于项目 ID，请使用；对于位置，使用。

注意：您可以跳过任何标为“仅限 Colab”的笔记本单元。

在后续部分中，您将运行多个笔记本单元，了解如何搭配使用 Vertex AI Gemini API 与 Vertex AI SDK for Python。

任务 3. 使用 Gemini Pro Vision 模型

Gemini Pro Vision (gemini-pro-vision) 是一个支持多模态提示的多模态模型。您可以在提示请求中包含文本、图片和视频，并获取文本或代码回答。

在本任务中，快速浏览笔记本单元，了解如何使用 Gemini Pro Vision 模型。完成目标后，返回此处以检查您的进度。

根据多张图片进行推理

Gemini 的一项功能是通过多张图片进行推理。在此示例中，您将使用 Gemini 分析关于水果的图片和价格表，以便推算出食物的总费用。

快速浏览此笔记本的根据多张图片进行推理部分。

点击检查我的进度，验证已完成以下目标：根据多张图片进行推理

理解屏幕和界面

Gemini 还可以从设备屏幕、界面、屏幕截图、图标和布局中提取信息。在此示例中，您将使用 Gemini 从一张关于炉灶的图片中提取信息，帮助用户了解炉灶的界面，并使用不同的语言来回答用户的问题：

快速浏览此笔记本的理解屏幕和界面部分。

点击检查我的进度，验证已完成以下目标：理解屏幕和界面

理解技术图表中的实体关系

Gemini 具备多模态功能，这使其能够理解图表并执行一些可行的操作，例如进行优化或生成代码。在此示例中，您将看到 Gemini 能够解读实体关系 (ER) 图表，理解表之间的关系，确定特定环境（例如 BigQuery）中的优化要求，甚至生成相应的代码。

快速浏览此笔记本的理解技术图表中的实体关系部分。

点击检查我的进度，验证已完成以下目标：理解技术图表中的实体关系

根据多张图��提出建议

Gemini 能够进行图片比较并提供建议。这一功能在电子商务和零售等行业非常实用。在此示例中，您将使用 Gemini 来推荐适合鹅蛋脸型的眼镜。

快速浏览此笔记本的根据多张图片提出建议部分。

点击检查我的进度，验证已完成以下目标：根据多张图片提出建议

相似/不同之处

Gemini 可以对不同的图片进行比较，并找出对象之间的相似/不同之处。在此示例中，您将使用 Gemini 比较为同一地点拍摄的两张图片，并找出它们的不同之处。

快速浏览此笔记本的相似/不同之处部分。

点击检查我的进度，验证已完成以下目标：相似/不同之处

生成视频说明

Gemini 可以生成视频说明。在此示例中，您将使用 Gemini 为一段关于地中海海岸的视频生成说明。

快速浏览此笔记本的生成视频说明部分。

提取视频中对象的标签

Gemini 还可以提取视频的标签。在此示例中，您将使用 Gemini 从一段关于拍摄照片的视频中提取对象的标��，并生成 # 标签。

快速浏览此笔记本的提取视频中对象的标签部分。

提出更多关于视频的问题

Gemini 可以回答关于视频的问题。在此示例中，您将使用 Gemini 回答有关视频的问题并返回 JSON 响应。

快速浏览此笔记本的提出更多关于视频的问题部分。

检索视频中不包含的额外信息

Gemini 还可以检索视频本身不包含的额外信息。在此示例中，您将使用 Gemini 检索关于视频的额外信息，例如询问关于火车路线的特定问题。

快速浏览此笔记本的检索视频中不包含的额外信息部分。

恭喜！

您现已完成本实验！在本实验中，您学习了如何使用 Vertex AI Gemini API 基于文本和图片提示生成文本。

后续步骤/了解详情

查看 Vertex AI 上的生成式 AI 文档。
前往 YouTube 频道 Google Cloud Tech 详细了解生成式 AI。
Google Cloud 生成式 AI 官方仓库
Gemini 笔记本示例

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践，可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训，并有点播、直播和虚拟三种方式选择，让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间：2024 年 10 月 8 日

上次测试实验的时间：2024 年 10 月 8 日

Gemini 的多模态

Gemini 的多模态

GSP1210

概览

多模态

目标

设置和要求

点击“开始实验”按钮前的注意事项

如何开始实验并登录 Google Cloud 控制台

启用所有推荐的 API

任务 1. 在 Vertex AI Workbench 中打开笔记本

任务 2. 设置笔记本

任务 3. 使用 Gemini Pro Vision 模型

根据多张图片进行推理

理解屏幕和界面

理解技术图表中的实体关系

根据多张图���提出建议

相似/不同之处

生成视频说明

提取视频中对象的标签

提出更多关于视频的问题

检索视频中不包含的额外信息

恭喜！

后续步骤/了解详情

Google Cloud 培训和认证

根据多张图��提出建议