مدل‌های Gemini آماده تولید به‌روز، کاهش قیمت 1.5 Pro، افزایش محدودیت‌های نرخ، و موارد دیگر! بیشتر بدانید

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

استراتژی های ایجاد فایل

مدل‌های هوش مصنوعی (AI) خانواده Gemini برای مدیریت انواع داده‌های ورودی از جمله متن، تصویر و صدا ساخته شده‌اند. از آنجایی که این مدل‌ها می‌توانند بیش از یک نوع یا حالت داده را مدیریت کنند، مدل‌های جمینی مدل‌های چندوجهی نامیده می‌شوند یا به عنوان دا��ای قابلیت‌های چندوجهی توضیح داده می‌شوند.

این صفحه راهنمایی و بهترین روش‌ها را برای استفاده از فایل‌های رسانه‌ای با درخواست‌های Gemini API ارائه می‌دهد. برای اطلاعات در مورد استفاده از Gemini Files API برای آپلود فایل‌های رسانه‌ای و گنجاندن آن‌ها در فرمان‌های خود، به راهنمای پردازش سند چشم‌انداز ، صوتی و سند مراجعه کنید.

استفاده از فایل های رسانه ای با درخواست

توانایی استفاده از انواع مختلف داده ها در درخواست های خود به شما انعطاف پذیری بیشتری از نظر کارهایی که می توانید با Gemini API انجام دهید، می دهد. به عنوان مثال، می توانید عکس یک غذای خوشمزه را برای مدل ارسال کنید و از او بخواهید که یک وبلاگ کوتاه درباره غذا بنویسد.

اعلان

پاسخ

بر اساس این تصویر یک پست وبلاگ کوتاه و جذاب بنویسید. این باید شامل توضیحاتی در مورد غذا در عکس باشد و در مورد تهیه غذای سفر من صحبت کند.

تهیه غذا یک راه عالی برای صرفه جویی در زمان و هزینه است و همچنین می تواند به شما کمک کند که غذای سالم تری داشته باشید. این غذا نمونه ای عالی از یک غذای سالم و خوشمزه است که به راحتی می توان آن را زودتر از موعد آماده کرد.

این غذا شامل برنج قهوه ای، سبزیجات بوداده و تریاکی مرغ است. برنج قهوه ای یک کربوهیدرات سالم و پیچیده است که به شما انرژی پایدار می دهد. سبزیجات برشته یک راه عالی برای دریافت دوز روزانه ویتامین ها و مواد معدنی هستند و تریاکی مرغ یک گزینه خوشمزه و غنی از پروتئین است.

تهیه این غذا نیز بسیار آسان است. به سادگی برنج قهوه ای را بپزید، سبزیجات را تفت دهید و مرغ تریاکی را بپزید. وقتی همه چیز پخته شد، آن را در ظرف های آماده غذا تقسیم کنید و در یخچال نگهداری کنید. سپس می توانید یک ظرف بردارید و صبح های شلوغ بروید!

اگر به دنبال یک غذای سالم و لذیذ هستید که به راحتی بتوان آن را زودتر از موعد آماده کرد، این غذا گزینه بسیار خوبی است. این مملو از مواد مغذی و طعم است و مطمئناً احساس سیری و رضایت شما را حفظ می کند.

در اینجا آماده کردن یک وعده غذایی سالم و خوشمزه است!

استراتژی هایی برای تشویق با رسانه ها

اگر در دریافت خروجی مورد نظر از اعلان‌هایی که از فایل‌های رسانه‌ای استفاده می‌کنند مشکل دارید، چند استراتژی وجود دارد که می‌تواند به شما کمک کند به نتایج دلخواه خود برسید. بخش‌های زیر رویکردهای طراحی و نکات عیب‌یابی را برای بهبود اعلان‌هایی که از ورودی چندوجهی استفاده می‌کنند، ارائه می‌کند.

می‌توانید با پیروی از بهترین روش‌ها، درخواست‌های چندوجهی خود را بهبود بخشید:

اصول اولیه طراحی
- دستورالعمل‌های خود را مشخص کنید : دستورالعمل‌های واضح و مختصر بسازید که کمترین فضایی را برای تفسیر نادرست باقی می‌گذارد.
- چند مثال به درخواست خود اضافه کنید: از مثال های واقعی چند شات برای نشان دادن آنچه می خواهید به دست آورید استفاده کنید.
- گام به گام آن را تجزیه کنید : وظایف پیچیده را به اهداف فرعی قابل مدیریت تقسیم کنید و مدل را در طول فرآیند هدایت کنید.
- فرمت خروجی را مشخص کنید : در درخواست خود، بخواهید خروجی به فرمتی که می‌خواهید باشد، مانند markdown، JSON، HTML و موارد دیگر.
- تصویر خود را در ابتدا برای اعلان‌های تک تصویری قرار دهید : در حالی که Gemini می‌تواند ورودی‌های تصویر و متن را به هر ترتیبی مدیریت کند، برای درخواست‌هایی که حاوی یک تصویر واحد هستند، اگر آن تصویر قبل از درخواست متن قرار گیرد، عملکرد بهتری دارد.
عیب یابی درخواست چند وجهی شما
- اگر مدل اطلاعاتی را از قسمت مربوط به تصویر نمی‌کشد: رها کردن به شما نشان می‌دهد که می‌خواهید اعلان اطلاعات را از کدام جنبه‌های تصویر بگیرد.
- اگر خروجی مدل خیلی عمومی است (به اندازه کافی متناسب با تصویر نیست): در ابتدای ��ستور، سعی کنید قبل از ارائه دستورالعمل کار، از مدل بخواهید تصویر(ها) را توصیف کند، یا سعی کنید از مدل بخواهید به آنچه در آن است اشاره کند. تصویر

ا��ول اولیه طراحی

این بخش بهترین شیوه های ذکر شده در بخش قبل را گسترش می دهد.

توجه: نتایج مدل از مثال‌های Gemini زیر می‌تواند از اجرا به اجرا متفاوت باشد.

در دستورالعمل های خود مشخص باشید

دستورات زمانی بیشترین موفقیت را دارند که واضح و با جزئیات باشند. اگر خروجی خاصی در ذهن دارید، بهتر است آن نیاز را در اعلان قرار دهید تا مطمئن شوید که خروجی مورد نظرتان را دریافت می کنید.

گاهی اوقات، هدف یک درخواست ممکن است برای شخصی که آن را نوشته است واضح به نظر برسد، اما در واقع مشخص نشده است. برای سفارشی کردن رفتار مدل، در نظر بگیرید که چگونه درخواست شما ممکن است (اشتباه) تفسیر شود و اطمینان حاصل کنید که دستورالعمل‌هایی که می‌دهید مشخص و واضح هستند. به یاد داشته باشید که حداقل فضایی را برای تفسیر نادرست بگذارید

برای این تصویر از تابلوی فرودگاه، درخواست از مدل برای "توصیف این تصویر" می تواند یک توصیف کلی ایجاد کند. اگر به مدل برای تجزیه زمان و شهر از تصویر نیاز دارید، می‌توانید آن درخواست را مستقیماً در درخواست خود وارد کنید.

اعلان	پاسخ مدل
این تصویر را توصیف کنید.	تصویر تابلوی ورود و خروج فرودگاه را نشان می دهد.

درخواست به روز شد	پاسخ بهبود یافته
زمان و شهر را از تابلوی فرودگاه نشان داده شده در این تصویر در لیستی تجزیه کنید.	10:50 مسکو 11:05 ادینبورگ 11:05 لندن 11:10 بخارست 11:30 کیف 11:35 دوبلین 11:45 میدلند شرقی 12:15 صوفیه 12:30 لندن 12:30 نیوکاسل 12:40 سن پترزبورگ 12:40 لندن 12:45 منچستر

درخواست به روز شد

پاسخ بهبود یافته

زمان و شهر را از تابلوی فرودگاه نشان داده شده در این تصویر در لیستی تجزیه کنید.

10:50 مسکو

11:05 ادینبورگ

11:05 لندن

11:10 بخارست

11:30 کیف

11:35 دوبلین

11:45 میدلند شرقی

12:15 صوفیه

12:30 لندن

12:30 نیوکاسل

12:40 سن پترزبورگ

12:40 لندن

12:45 منچستر

چند مثال اضافه کنید

مدل Gemini می تواند ورودی های متعددی را بپذیرد که می تواند از آنها به عنوان مثال برای درک خروجی مورد نظر شما استفاده کند. افزودن این مثال‌ها می‌تواند به مدل کمک کند تا الگوها را شناسایی کند و رابطه بین تصاویر داده شده و پاسخ‌ها را به مثال جدید اعمال کند. به این یادگیری «چند شات» نیز می گویند.

در مثال زیر، خروجی اولیه به صورت جمله نوشته شده است و همچنین شامل کشور (برزیل) است. فرض کنید خروجی را در قالب یا سبک دیگری می‌خواهید و فقط شهر را می‌خواهید، نه کشور را. افزودن چند نمونه به اعلان شما می تواند مدل را به گونه ای که شما می خواهید پاسخ دهد.

اعلان	پاسخ مدل
شهر را به همراه نقطه عطف تعیین کنید.	نقطه عطفی مجسمه مسیح نجات دهنده در ریودوژانیرو، برزیل است.

درخواست به روز شد	پاسخ بهبود یافته
شهر را به همراه نقطه عطف تعیین کنید.	شهر: رم، نقطه عطف: کولوسئوم.
	شهر: پکن، نقطه عطف: شهر ممنوعه
	شهر: ریودوژانیرو، نقطه عطف: مجسمه مسیح نجات دهنده

آن را مرحله به مرحله تجزیه کنید

برای کارهای پیچیده مانند کارهایی که به درک بصری و استدلال نیاز دارند، تقسیم کار به مراحل کوچکتر و ساده تر می تواند مفید باشد. از طرف دیگر، اگر مستقیماً از مدل بخواهید در درخواست شما "گام به گام فکر کند" نیز می تواند موثر باشد.

اعلان	پاسخ مدل
کی دستمال توالت تمام می شود؟	به زودی، فقط 3 رول باقی مانده است.

درخواست به روز شد	پاسخ بهبود یافته
1. ابتدا بشمارید که در این تصویر چند عدد رول دستمال توالت وجود دارد. 2. سپس تعیین کنید که یک فرد معمولی چه مقدار دستمال توالت در روز استفاده می کند. 3. محاسبه کنید که این رول های دستمال توالت چقدر عمر می کنند.	1. در این تصویر 3 رول دستمال توالت وجود دارد. 2. یک فرد معمولی روزانه حدود 20 ورق دستمال توالت استفاده می کند. 3. اگر هر رول شامل 200 برگ باشد، پس هر رول حدود 10 روز دوام خواهد داشت. بنابراین، 3 رول حدود یک ماه دوام خواهند داشت.

درخواست به روز شد

پاسخ بهبود یافته

1. ابتدا بشمارید که در این تصویر چند عدد رول دستمال توالت وجود دارد.

2. سپس تعیین کنید که یک فرد معمولی چه مقدار دستمال توالت در روز استفاده می کند.

3. محاسبه کنید که این رول های دستمال توالت چقدر عمر می کنند.

1. در این تصویر 3 رول دستمال توالت وجود دارد.

2. یک فرد معمولی روزانه حدود 20 ورق دستمال توالت استفاده می کند.

3. اگر هر رول شامل 200 برگ باشد، پس هر رول حدود 10 روز دوام خواهد داشت. بنابراین، 3 رول حدود یک ماه دوام خواهند داشت.

مسائل ریاضی یا انواع دیگر مسائل کلمه کاندیدای عالی برای درخواست از مدل برای فکر کردن مرحله به مرحله هستند.

اعلان	پاسخ
ترم 4 در دنباله چیست؟	-135

اعلان

پاسخ

ترم 4 در دنباله چیست؟

-135

پاسخ مدل نادرست است. برخی از راه‌های بهبود این امر این است که از مدل بخواهید قبل از پاسخ دادن به درخواست، مسئله را تجزیه کند.

اعلان	پاسخ
ابتدا فرمول موجود در تصویر را تجزیه کنید. سپس بر اساس فرمول، به عبارت "چهارمین جمله در دنباله چیست؟" پاسخ دهید.	برای گسترش نتیجه کلیک کنید $$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$ n=4 را در فرمول جایگزین کنید: $$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ ما مقدار b(3) را نمی دانیم، بنابراین n = 3 را در فرمول جایگزین کنید: $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ ما مقدار b(2) را نمی دانیم، بنابراین n = 2 را در فرمول جایگزین کنید: $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ می دانیم که مقدار b(1) 15 است، بنابراین آن را با فرمول جایگزین کنید: $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ اکنون که مقدار b(2) را می دانیم، آن را با فرمول b(3) جایگزین کنید: $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ اکنون که مقدار b(3) را می دانیم، آن را با فرمول b(4) جایگزین کنید: $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ بنابراین، جمله 4 در دنباله -405 است.

اعلان

پاسخ

ابتدا فرمول موجود در تصویر را تجزیه کنید.

سپس بر اساس فرمول، به عبارت "چهارمین جمله در دنباله چیست؟" پاسخ دهید.

برای گسترش نتیجه کلیک کنید

$$ b(n) = b(n-1) * (-3) $$

$$ b(1) = 15 $$

n=4 را در فرمول جایگزین کنید:

$$ b(4) = b(4-1) * (-3) $$

$$ b(4) = b(3) * (-3) $$

ما مقدار b(3) را نمی دانیم، بنابراین n = 3 را در فرمول جایگزین کنید:

$$ b(3) = b(3-1) * (-3) $$

$$ b(3) = b(2) * (-3) $$

ما مقدار b(2) را نمی دانیم، بنابراین n = 2 را در فرمول جایگزین کنید:

$$ b(2) = b(2-1) * (-3) $$

$$ b(2) = b(1) * (-3) $$

می دانیم که مقدار b(1) 15 است، بنابراین آن را با فرمول جایگزین کنید:

$$ b(2) = 15 * (-3) $$

$$ b(2) = -45 $$

اکنون که مقدار b(2) را می دانیم، آن را با فرمول b(3) جایگزین کنید:

$$ b(3) = b(2) * (-3) $$

$$ b(3) = -45 * (-3) $$

$$ b(3) = 135 $$

اکنون که مقدار b(3) را می دانیم، آن را با فرمول b(4) جایگزین کنید:

$$ b(4) = b(3) * (-3) $$

$$ b(4) = 135 * (-3) $$

$$ b(4) = -405 $$

بنابراین، جمله 4 در دنباله -405 است.

این پاسخ مدل صحیح است - اکنون برای ساده‌تر کردن پاسخ، می‌توانید از مدل بخواهید گام به گام فکر کند.

درخواست به روز شد	پاسخ بهبود یافته
ترم 4 در دنباله چیست؟ قدم به قدم فکر کنید.	ترم اول 15 است. جمله دوم b(1) * (-3) = 15 * (-3) = -45 است. جمله سوم b(2) * (-3) = -45 * (-3) = 135 است. جمله چهارم b(3) * (-3) = 135 * (-3) = -405 است.

درخواست به روز شد

پاسخ بهبود یافته

ترم 4 در دنباله چیست؟ قدم به قدم فکر کنید.

ترم اول 15 است.

جمله دوم b(1) * (-3) = 15 * (-3) = -45 است.

جمله سوم b(2) * (-3) = -45 * (-3) = 135 است.

جمله چهارم b(3) * (-3) = 135 * (-3) = -405 است.

سعی کنید فرمت خروجی را مشخص کنید

یک مشکل رایج نیاز به خروجی مدل در یک فرمت خاص است (به عنوان مثال markdown، JSON، HTML)، به خصوص اگر خروجی مدل باید توسط یک کار پایین دستی وارد شود. می توانید با دستور دادن به مدل برای انجام این کار در اعلان، خروجی را در آن فرمت تولید کنید. در زیر دو نمونه آورده شده است:

اعلان	پاسخ مدل
جدول موجود در این تصویر را با فرمت علامت گذاری تجزیه کنید	\| موضوع \| وضعیت \| زمان \| تاریخ شروع \| سررسید در \| \| ------- \| ------ \| ---- \| --------- \| ------ \| \| ریاضی \| انجام شد \| 1.5 ساعت \| 2023/11/29 \| 12/1/2023 \| \| جغرافیا \| انجام شد \| 30 دقیقه \| 2023/12/2 \| 2023/12/4 \| \| فیزیک \| در حال انجام \| 2 ساعت \| 12/3/2023 \| 2023/12/5 \| \| زیست شناسی \| شروع نشده \| 6 ساعت \| 1395/11/2 \| 2023/12/6 \|

اعلان

پاسخ مدل

جدول موجود در این تصویر را با فرمت علامت گذاری تجزیه کنید

| ------- | ------ | ---- | --------- | ------ |

اعلان	پاسخ مدل
فهرستی از تمام ویژگی های زیر ار��ئه دهید: مواد تشکیل دهنده، نوع غذا، گیاهی یا غیر گیاهی، با فرمت JSON	``json`` { "مواد تشکیل دهنده": [ "برنج"، "میگو"، "صدف ها"، "صدف"، "نخود فرنگی"، "گوجه فرنگی"، "پیاز"، "سیر"، "روغن زیتون"، "پاپریکا"، "نمک"، "فلفل" ]، "نوع آشپزی": "اسپانیایی"، «گیاهی»: نادرست

اعلان

پاسخ مدل

فهرستی از تمام ویژگی های زیر ار��ئه دهید:

مواد تشکیل دهنده، نوع غذا، گیاهی یا غیر گیاهی، با فرمت JSON

``json``

{

"مواد تشکیل دهنده": [

"برنج"،

"میگو"،

"صدف ها"،

"صدف"،

"نخود فرنگی"،

"گوجه فرنگی"،

"پیاز"،

"سیر"،

"روغن زیتون"،

"پاپریکا"،

"نمک"،

"فلفل"

]،

"نوع آشپزی": "اسپانیایی"،

«گیاهی»: نادرست

ابتدا تصویر خود را برای درخواست های تک تصویری قرار دهید

در حالی که Gemini می تواند تصویر و متن را به هر ترتیبی در یک اعلان تفسیر کند، قرار دادن یک تصویر واحد قبل از اعلان متن ممکن است به نتایج بهتری منجر شود. در نمونه های زیر، متوجه خواهید شد که تصویر در ابتدا قبل از متن در هر فرمان قرار می گیرد.

عیب یابی درخواست چند وجهی شما

اگر پاسخ مفیدی دریافت نکردید، ممکن است لازم باشد درخواست خود را عیب یابی کنید. در اینجا چند استراتژی وجود دارد که می توانید امتحان کنید.

اگر مدل اطلاعاتی از قسمت مربوطه تصویر نمی کشد

برای دریافت پاسخ دقیق‌تر، می‌توانید به این نکته اشاره کنید که می‌خواهید اعلان از کدام جنبه‌های تصویر اطلاعاتی را برای اطلاع از پاسخ آن بگیرد.

اعلان	پاسخ مدل
این پوشک ها برای نوزاد چند روز دوام می آورند؟	پوشک ها قبل از تمام شدن 198 روز دوام خواهند داشت.

درخواست به روز شد	پاسخ بهبود یافته
این پوشک ها چقدر طول می کشد تا من تمام شود؟ برای تعیین سن کودک از وزن نشان داده شده روی جعبه استفاده کنید و از تعداد کل پوشک های داخل جعبه استفاده کنید. تعداد کل را بر تعداد پوشک کودک در روز تقسیم کنید.	جعبه شامل 198 پوشک است. در جعبه نوشته شده است که پوشک برای کودکی با وزن 22 تا 37 پوند است. متوسط کودکان در این محدوده وزنی احتمالاً بین 1 تا 2 سال سن دارند. یک کودک 2 ساله به طور معمول روزانه 6 پوشک می زند، بنابراین، پوشک حدود 33 روز دوام می آورد (198/6).

درخواست به روز شد

پاسخ بهبود یافته

این پوشک ها چقدر طول می کشد تا من تمام شود؟

برای تعیین سن کودک از وزن نشان داده شده روی جعبه استفاده کنید و از تعداد کل پوشک های داخل جعبه استفاده کنید.

تعداد کل را بر تعداد پوشک کودک در روز تقسیم کنید.

جعبه شامل 198 پوشک است. در جعبه نوشته شده است که پوشک برای کودکی با وزن 22 تا 37 پوند است.

متوسط کودکان در این محدوده وزنی احتمالاً بین 1 تا 2 سال سن دارند.

یک کودک 2 ساله به طور معمول روزانه 6 پوشک می زند، بنابراین، پوشک حدود 33 روز دوام می آورد (198/6).

اگر خروجی مدل خیلی عمومی باشد و به اندازه کافی برای ورودی تصویر مناسب نباشد

برای کمک به مدل در تنظیم پاسخ خود به تصویر(ها)، سعی کنید قبل از انجام وظیفه استدلالی از آن بخواهید که تصاویر را توصیف کند.

اعلان	پاسخ مدل
وجه اشتراک این تصاویر چیست؟	هر چهار تصویر نمونه هایی از عکاسی منظره هستند.

درخواست به روز شد	پاسخ بهبود یافته
ابتدا آنچه در هر تصویر وجود دارد را با جزئیات شرح دهید. چه چیزی بین این تصاویر مشترک است؟	تصویر اول شخصی را در حال بستن چمدان نشان می دهد. تصویر دوم یک راهرو خالی در یک مرکز خرید را نشان می دهد. تصویر سوم یک رول دستمال توالت را نشان می دهد. تصویر چهارم، دریای تاریک و طوفانی را نشان می دهد. وجه اشتراک این تصاویر این است که همگی نمونه هایی از فضاهای حاشیه ای هستند. فضاهای لیمینال مکان ها یا موقعیت هایی هستند که بین دو مکان یا موقعیت دیگر قرار دارند. آنها اغلب با احساس عدم اطمینان یا ابهام مشخص می شوند. تصویر اول فرد را بین حضور در خانه و سفر نشان می دهد. تصویر دوم راهروی بین دو فروشگاه را نشان می دهد. تصویر سوم مربوط به دستمال توالت است که می تواند نمایانگر حمام باشد. حمام یک فضای انتقالی بین قلمرو خصوصی و عمومی است. جایی است که ما خود را برای ورود یا خروج از دنیای بیرون آماده می کنیم. تصویر چهارم دریا را در بین آرام و طوفانی نشان می دهد. فضاهای لیمینال می توانند هم هیجان انگیز و هم ناراحت کننده باشند. آنها می توانند مکانی برای شروع جدید یا مکانی برای پایان باشند. آنها می توانند محل تأمل یا مکان عمل باشند.

درخواست به روز شد

پاسخ بهبود یافته

ابتدا آنچه در هر تصویر وجود دارد را با جزئیات شرح دهید. چه چیزی بین این تصاویر مشترک است؟

تصویر اول شخصی را در حال بستن چمدان نشان می دهد. تصویر دوم یک راهرو خالی در یک مرکز خرید را نشان می دهد. تصویر سوم یک رول دستمال توالت را نشان می دهد. تصویر چهارم، دریای تاریک و طوفانی را نشان می دهد.

وجه اشتراک این تصاویر این است که همگی نمونه هایی از فضاهای حاشیه ای هستند. فضاهای لیمینال مکان ها یا موقعیت هایی هستند که بین دو مکان یا موقعیت دیگر قرار دارند. آنها اغلب با احساس عدم اطمینان یا ابهام مشخص می شوند.

تصویر اول فرد را بین حضور در خانه و سفر نشان می دهد. تصویر دوم راهروی بین دو فروشگاه را نشان می دهد. تصویر سوم مربوط به دستمال توالت است که می تواند نمایانگر حمام باشد. حمام یک فضای انتقالی بین قلمرو خصوصی و عمومی است. جایی است که ما خود را برای ورود یا خروج از دنیای بیرون آماده می کنیم.

تصویر چهارم دریا را در بین آرام و طوفانی نشان می دهد.

فضاهای لیمینال می توانند هم هیجان انگیز و هم ناراحت کننده باشند. آنها می توانند مکانی برای شروع جدید یا مکانی برای پایان باشند. آنها می توانند محل تأمل یا مکان عمل باشند.

همچنین می‌توانید صریحاً از مدل بخواهید به آنچه در تصویر است اشاره کند.

درخواست به روز شد	پاسخ بهبود یافته
وجه اشتراک این تصاویر چیست؟ در پاسخ خود به آنچه در تصاویر موجود است مراجعه کنید.	تمامی تصاویر مربوط به سفر هستند. تصویر اول شخصی را در حال بستن چمدان نشان می دهد، تصویر دوم راهروی خالی در یک مرکز خرید، تصویر سوم دسته ای از دستمال توالت و تصویر چهارم دریای تاریک و طوفانی را نشان می دهد. این تصاویر همگی مربوط به سفر هستند زیرا همه چیزهایی هستند که افراد در سفر به آنها نیاز دارند یا از آنها استفاده می کنند. تصویر اول شخصی را در حال بستن چمدان نشان می دهد، کاری که مردم هنگام رفتن به سفر انجام می دهند. تصویر دوم یک راهرو خالی در یک مرکز خرید را نشان می دهد، جایی که مردم اغلب برای خرید وسایل سفر خود به آنجا می روند. تصویر سوم یک دسته کاغذ توالت را نشان می دهد، چیزی که مردم اغلب در سفر از آن استفاده می کنند. تصویر چهارم، دریای تاریک و طوفانی را نشان می دهد، چیزی که مردم اغلب هنگام سفر با آن مواجه می شوند.

درخواست به روز شد

پاسخ بهبود یافته

وجه اشتراک این تصاویر چیست؟ در پاسخ خود به آنچه در تصاویر موجود است مراجعه کنید.

تمامی تصاویر مربوط به سفر هستند. تصویر اول شخصی را در حال بستن چمدان نشان می دهد، تصویر دوم راهروی خالی در یک مرکز خرید، تصویر سوم دسته ای از دستمال توالت و تصویر چهارم دریای تاریک و طوفانی را نشان می دهد.

این تصاویر همگی مربوط به سفر هستند زیرا همه چیزهایی هستند که افراد در سفر به آنها نیاز دارند یا از آنها استفاده می کنند. تصویر اول شخصی را در حال بستن چمدان نشان می دهد، کاری که مردم هنگام رفتن به سفر انجام می دهند. تصویر دوم یک راهرو خالی در یک مرکز خرید را نشان می دهد، جایی که مردم اغلب برای خرید وسایل سفر خود به آنجا می روند. تصویر سوم یک دسته کاغذ توالت را نشان می دهد، چیزی که مردم اغلب در سفر از آن استفاده می کنند. تصویر چهارم، دریای تاریک و طوفانی را نشان می دهد، چیزی که مردم اغلب هنگام سفر با آن مواجه می شوند.

همین نکات برای خروجی خلاقانه از تصاویر کار می کنند. در مثال زیر با خرگوش، درخواست صریح از مدل برای گنجاندن جنبه‌هایی از تصویر می‌تواند خروجی را بهبود بخشد.

اعلان	پاسخ مدل
میشه یه شعر در مورد این عکس برام بنویسی؟	خرگوش کوچولو، خیلی نرم و قهوه ای، پریدن از طریق میدان، بالا و پایین. گوش هایت خیلی بلند، دمت خیلی کوچک، تو نازترین موجود بین همه آنها هستی تو چمن ها را می خوری، آنقدر سبز و شیرین، و وقتی مرا دیدی از آنجا دور شو اما من همیشه دوستت خواهم بود، خرگوش کوچولو، تا آخر

اعلان

پاسخ مدل

میشه یه شعر در مورد این عکس برام بنویسی؟

خرگوش کوچولو، خیلی نرم و قهوه ای،
پریدن از طریق میدان، بالا و پایین.
گوش هایت خیلی بلند، دمت خیلی کوچک،
تو نازترین موجود بین همه آنها هستی

تو چمن ها را می خوری، آنقدر سبز و شیرین،
و وقتی مرا دیدی از آنجا دور شو
اما من همیشه دوستت خواهم بود،
خرگوش کوچولو، تا آخر

درخواست به روز شد	پاسخ بهبود یافته
می توانید یک شعر توصیفی و دراماتیک در مورد این تصویر برای من بنویسید و مکان آن را درج کنید؟	اسم حیوان دست اموز کوچک روی سبز، گوش ها خیلی بلند، خیلی مشتاق. اون بیرون چی میبینی در دوردست، کجا خیره می شوی؟ آیا آبی اقیانوس است، درخشان در رنگ خورشید؟ یا امواجی که برخورد می کنند و غرش می کنند، ریتمی که دوستش داری؟ خرگوش کوچولو، راستش را بگو، چه چیزی توجه شما را جلب می کند؟ آیا این نسیم شور است، یا گریه های مرغ های دریایی که لطفا؟ شاید این وسعت همه چیز باشد، دنیایی به این بزرگی و کوچکی جایی که رویاها می توانند در آن پرسه بزنند، و ماجراها را می توان کاشت. خرگوش کوچولو، من تعجب می کنم که چه خوابی می بینید، همانطور که روی چمن می نشینی، آنقدر آرام. آیا مشتاق کاوش در اعماق هستید، یا در خشکی بمانید، جایی که بتوانید بپرید؟ هر چه که باشد، خرگوش کوچولو، آن جرقه شگفتی را روشن نگه دارید. زیرا در رویاها و آرزوهایت، دنیایی در انتظار خلقت شماست.

درخواست به روز شد

پاسخ بهبود یافته

می توانید یک شعر توصیفی و دراماتیک در مورد این تصویر برای من بنویسید و مکان آن را درج کنید؟

اسم حیوان دست اموز کوچک روی سبز،
گوش ها خیلی بلند، خیلی مشتاق.
اون بیرون چی میبینی
در دوردست، کجا خیره می شوی؟

آیا آبی اقیانوس است،
درخشان در رنگ خورشید؟
یا امواجی که برخورد می کنند و غرش می کنند،
ریتمی که دوستش داری؟

خرگوش کوچولو، راستش را بگو،
چه چیزی توجه شما را جلب می کند؟
آیا این نسیم شور است،
یا گریه های مرغ های دریایی که لطفا؟

شاید این وسعت همه چیز باشد،
دنیایی به این بزرگی و کوچکی
جایی که رویاها می توانند در آن پرسه بزنند،
و ماجراها را می توان کاشت.

خرگوش کوچولو، من تعجب می کنم که چه خوابی می بینید،
همانطور که روی چمن می نشینی، آنقدر آرام.
آیا مشتاق کاوش در اعماق هستید،
یا در خشکی بمانید، جایی که بتوانید بپرید؟

هر چه که باشد، خرگوش کوچولو،
آن جرقه شگفتی را روشن نگه دارید.
زیرا در رویاها و آرزوهایت،
دنیایی در انتظار خلقت شماست.

عیب یابی کدام قسمت از درخواست انجام نشد

تشخیص اینکه آیا یک اعلان شکست خورده است زیرا مدل در ابتدا تصویر را درک نکرده است یا اینکه آیا تصویر را درک کرده است اما مراحل استدلال صحیح را بعد از آن انجام نداده است.

برای رفع ابهام بین این دلایل، از مدل بخواهید آنچه را که در تصویر است توضیح دهد.

در این مثال زیر، اگر مدل با میان وعده ای پاسخ می دهد که هنگام جفت شدن با چای شگفت انگیز به نظر می رسد (مثلاً پاپ کورن)، می توانید ابتدا عیب یابی کنید تا مشخص شود که آیا مدل به درستی تشخیص داده است که تصویر حاوی چای است یا خیر.

اعلان	درخواست عیب یابی
چه میان وعده ای می توانم در 1 دقیقه درست کنم که با آن خوب باشد؟	آنچه در این تصویر وجود دارد را توصیف کنید.

استراتژی دیگر این است که از مدل بخواهیم استدلال خود را توضیح دهد. این می تواند به شما کمک کند ��ا مشخص کنید کدام ��سمت از ��ستدلال ��کسته است، در صورت وجود.

اعلان	درخواست عیب یابی
چه میان وعده ای می توانم در 1 دقیقه درست کنم که با آن خوب باشد؟	چه میان وعده ای می توانم در 1 دقیقه درست کنم که با آن خوب باشد؟ لطفا توضیح دهید چرا

تنظیم پارامترهای نمونه برداری

در هر درخواست، شما نه تنها اعلان چندوجهی بلکه مجموعه ای از پارامترهای نمونه برداری را به مدل ارسال می کنید. مدل می تواند نتایج متفاوتی را برای مقادیر پارامترهای مختلف ایجاد کند. برای بدست آوردن بهترین مقادیر برای کار، پارامترهای مختلف را آزمایش کنید. متداول ترین پارامترهای تنظیم شده عبارتند از:

دما
top-P
top-K

دما

دما برای نمونه برداری در طول تولید پاسخ استفاده می شود، که زمانی اتفاق می افتد که top-P و top-K اعمال می شود. دما درجه تصادفی بودن انتخاب نشانه را کنترل می کند. دماهای پایین‌تر برای اعلان‌هایی که نیاز به پاسخ قطعی‌تر و خلاقانه‌تر دارند، خوب است، در حالی که دمای بالاتر می‌تواند منجر به نتایج متنوع‌تر یا خلاقانه‌تر شود. دمای 0 قطعی است، به این معنی که بالاترین پاسخ احتمال همیشه انتخاب می شود.

برای بیشتر موارد استفاده، سعی کنید با دمای 0.4 شروع کنید. اگر به نتایج خلاقانه تری نیاز دارید، سعی کنید دما را افزایش دهید. در صورت مشاهده توهمات واضح، سعی کنید دما را کاهش دهید.

Top-K

Top-K نحوه انتخاب توکن ها را برای خروجی توسط مدل تغییر می دهد. top-K از 1 به این معنی است که نشانه انتخابی بعدی محتمل ترین نشانه در واژگان مدل است (که رمزگشایی حریص نیز نامیده می شود)، در حالی که بالا-K از 3 به این معنی است که نشانه بعدی از بین سه نشانه محتمل ترین انتخاب شده است. با استفاده از دما

برای هر مرحله انتخاب توکن، توکن های top-K با بیشترین احتمال نمونه برداری می شوند. سپس توکن‌ها بر اساس top-P فیلتر می‌شوند و نشانه نهایی با استفاده از نمونه‌گیری دما انتخاب می‌شود.

مقدار کمتری را برای پاسخ‌های تصادفی کمتر و مقدار بالاتر را برای پاسخ‌های تصادفی بیشتر تعیین کنید. مقدار پیش فرض top-K 32 است.

Top-P

Top-P نحوه انتخاب توکن ها را برای خروجی توسط مدل تغییر می دهد. توکن ها از بیشترین (به top-K) تا کمترین احتمال انتخاب می شوند تا زمانی که مجموع احتمالات آنها با مقدار top-P برابر شود. به عنوان مثال، اگر نشانه های A، B، و C دارای احتمال 0.6، 0.3، 0.1 و مقدار top-P 0.9 باشد، مدل A یا B را به عنوان نشانه بعدی با استفاده از دما انتخاب می کند و C را به عنوان یک علامت حذف می کند. نامزد

مقدار کمتری را برای پاسخ‌های تصادفی کمتر و مقدار بالاتر را برای پاسخ‌های تصادفی بیشتر تعیین کنید. مقدار پیش فرض top-P 1.0 است.

مراحل بعدی

سعی کنید درخواست‌های چندوجهی خود را با استفاده از Google AI Studio بنویسید.
برای راهنمایی بیشتر در مورد طراحی سریع، به صفحه استراتژی های اعلان مراجعه کنید.

استراتژی های ایجاد فایل

استفاده از فایل های رسانه ای با درخواست

استراتژی هایی برای تشویق با رسانه ها

اصول اولیه طراحی

عیب یابی درخواست چند وجهی شما

ا��ول اولیه طراحی

در دستورالعمل های خود مشخص باشید

چند مثال اضافه کنید

آن را مرحله به مرحله تجزیه کنید

سعی کنید فرمت خروجی را مشخص کنید

ابتدا تصویر خود را برای درخواست های تک تصویری قرار دهید

عیب یابی درخواست چند وجهی شما

اگر مدل اطلاعاتی از قسمت مربوطه تصویر نمی کشد

اگر خروجی مدل خیلی عمومی باشد و به اندازه کافی برای ورودی تصویر مناسب نباشد

عیب یابی کدام قسمت از درخواست انجام نشد

تنظیم پارامترهای نمونه برداری

دما

Top-K

Top-P

مراحل بعدی