فعالیت چت جی بی تی محدود می شود

به گزارش لینک بگیر دات کام، شرکت مایکروسافت اعلام نمود فعالیت چت جی بی تی را در موتور جستجوی بینگ از ترس اشتباه کردن به ۵ سوال در هر فرآیند چت و در کل ۵۰ سوال در روز محدود می کند.

چت جی پی تی چیست؟

چت جی پی تی ChatGPT (Chat Generative Pre-trained Transformer) یک ربات چت است که توسط OpenAI توسعه یافته و در نوامبر 2022 راه اندازی شد. این ربات بر روی خانواده GPT-3 از مدل های زبان بزرگ ساخته شده است و با استفاده از آن (رویکردی برای انتقال یادگیری) به خوبی تنظیم شده است. هر دو روش یادگیری تحت نظارت و تقویتی.

چت جی پی تی به عنوان یک نمونه اولیه در 30 نوامبر 2022 راه اندازی شد و به سرعت به دلیل پاسخ های دقیق و پاسخ های واضح در بسیاری از حوزه های دانش توجه را به خود جلب کرد. با این حال، دقت واقعی نابرابر آن به عنوان یک اشکال مهم شناسایی شد. پس از انتشار ChatGPT، ارزش OpenAI 29 میلیارد دلار آمریکا برآورد شد.

به گزارش لینک بگیر دات کام به نقل از رویترز، این شرکت در یک پست وبلاگی نوشت: همانطور که اخیرا اعلام کردیم، چت های طولانی امکان دارد مدل زیربنای چت در موتورجستجوی جدید بینگ را سردرگم کند. برای مرchatتفع ساختن این چالش ها ما چند تغییر ایجاد کردیم تا در هر چت نوعی تمرکز به وجود بیاید. تصمیم مایکروسافت برای محدود کردن چت بات مذکور در حالی اعلام می شود که چند روز قبل برخی رسانه ها گزارش کرده بودند پاسخ های موتور جستجوی جدید بینگ احیانا خطرآفرین است و این فناوری هنوز برای عرضه گسترده آماده نیست. نتایج جستجوی اولیه و محاورات با چت بات های بینگ و گوگل (بارد) حاکی از غیرقابل پیش بینی بودن آنها است.

آموزش چت جی پی تی

ChatGPT - یک ترانسفورماتور از پیش آموزش دیده مولد (GPT) - با استفاده از یادگیری نظارت شده و همچنین یادگیری تقویتی در بالای GPT-3.5 به خوبی تنظیم شد (رویکردی برای انتقال یادگیری). هر دو رویکرد از مربیان انسانی برای بهبود عملکرد مدل استفاده کردند. در مورد یادگیری تحت نظارت، مدل با مکالماتی ارائه شد که در آن مربیان هر دو طرف را بازی می کردند: کاربر و دستیار هوش مصنوعی. در مرحله یادگیری تقویتی، مربیان انسانی ابتدا پاسخ هایی را که مدل در مکالمه قبلی ایجاد کرده بود، رتبه بندی کردند. این رتبه‌بندی‌ها برای ایجاد «مدل‌های پاداش» مورد استفاده قرار گرفتند که این مدل با استفاده از چندین تکرار از بهینه‌سازی سیاست پروگزیمال (PPO) بیشتر تنظیم شد. الگوریتم‌های بهینه‌سازی سیاست پروگزیمال یک مزیت مقرون‌به‌صرفه برای اعتماد الگوریتم‌های بهینه‌سازی خط‌مشی منطقه ارائه می‌کنند. آنها بسیاری از عملیات محاسباتی پرهزینه را با عملکرد سریعتر نفی می کنند. این مدل ها با همکاری مایکروسافت در زیرساخت ابررایانه Azure آموزش داده شدند.

علاوه بر این، OpenAI به جمع آوری داده ها از کاربران ChatGPT ادامه می دهد که می تواند برای آموزش بیشتر و تنظیم دقیق ChatGPT استفاده شود. کاربران مجازند به پاسخ هایی که از ChatGPT دریافت می کنند رأی مثبت یا منفی بدهند. پس از رأی موافق یا مخالف، آنها همچنین می توانند یک فیلد متنی را با بازخورد اضافی پر کنند.

منبع: لینك بگیر دات كام

در این مطلب خواندید: