آیا جمینای گوگل می تواند به واقع گرایی ElevenLabs v3 برسد؟ -لینک بگیر دات کام

به گزارش لینک بگیر دات کام هوش مصنوعی شرکت «الون لبز» که متن را به گفتار تبدیل می کند، امکان کنترل بیان را برای تولید صدا به ارمغان می آورد و به جای خوانش های ساده، امکان اجرای واقعی را فراهم می کند.

به گزارش لینک بگیر دات کام به نقل از ایسنا، هوش مصنوعی «الون وی۳»(Eleven v3) شرکت «الون لبز»(ElevenLabs) که برپایه یک ساختار جدید ساخته شده است، واقع گرایی و کنترل بی سابقه ای را برای تولید گفتار به ارمغان می آورد. این نرم افزار می تواند لحن را در اواسط جمله تغییر دهد، به صورت یکپارچه بین شخصیت ها حرکت نماید و به نشانه هایی مانند نجوا، خنده و آه کشیدن پاسخ دهد. همه این موارد بدون ایجاد اختلال در جریان گفتار صورت می گیرند.
به نقل از دیجیتال ترمینال، این نسخه از هوش مصنوعی الون لبز یک نسخه «آلفا» است. این نسخه نسبت به مدلهای پیشین به مهندسی سریع تری نیاز دارد اما خروجی آن یک تغییر اساسی را در بیان، ظرافت و واقع گرایی انسانی عرضه می کند. این نسخه جدید، پشتیبانی از زبان های متعدد را از ۳۳ به بیشتر از ۷۰ زبان افزایش داده است. با تنظیم دقیق تر، قابلیت اطمینان و کنترل پذیری هم افزایش خواهد یافت.

قابلیت های مهم الون وی۳:

۱. پوشش دهی بیشتر از ۷۰ زبان؛ زبان های پوشش داده شده در الون وی۳ از ۳۳ زبان به بیشتر از ۷۰ زبان گسترش یافته اند و پوشش دهی جمعیت جهان از ۶۰ درصد به ۹۰ درصد افزایش داشته است.
۲. حالت گفتگو؛ الون وی۳ وقفه های طبیعی، تغییر لحن و جریان احساسی را بین چندین گوینده مدیریت می کند.
۳. برچسب های صوتی؛ الون وی۳ عرضه خویش را با برچسب هایی مانند زمزمه، عصبانیت، خنده یا صدای جیرجیر در هدایت می کند و امکان کنترل عملکرد را با جزئیات دقیق فراهم می آورد.
۴. پشتیبانی از پخش زنده؛ بزودی خصوصیت پشتیبانی از پخش زنده به شکل در لحظه برای مراکز تماس و اپراتورهای مکالمه عرضه می شود.
۵. API عمومی برای الون وی۳ (آلفا) بزودی منتشر می شود. کاربران برای دسترسی زودهنگام می توانند با بخش فروش شرکت تماس بگیرند.
الون وی۳ برای سازندگان، توسعه دهندگان و شرکت هایی طراحی شده است که محتوای شامل داستان ها، کتاب های صوتی، گفتگوی شخصیت ها و تعاملات رسانه ای را تولید می کنند. این مدل به آزمایش و عرضه بازخورد آگاهانه از متن ارج می نهد.

برای موارد استفاده در لحظه و با تأخیر کم مانند هوش مصنوعی محاوره ای سفارش شده که کاربران فعلا با مدلهای «توربو»(Turbo) و «فلش»(Flash) الون وی۲.۵ کار کنند. نسخه در لحظه الون وی۳ درحال توسعه است.
الون وی۳ کنترل بیان را برای تولید صدا به ارمغان می آورد و به جای خوانش های ساده، اجراهای واقعی را ممکن می سازد. این نسخه می تواند احساسات را تغییر دهد، نحوه ی بیان را تنظیم کند و یک حرکت روان را بین شخصیت های یک نسل داشته باشد. برای نخستین بار، گفتار هوش مصنوعی می تواند ریتم و ظرافت احساسی مکالمه انسانی را در بیشتر از ۷۰ زبان دنبال کند.
«ماتی استانیشفسکی»(Mati Staniszewski) از بنیان گذاران الون لبز و مدیرعامل این شرکت اظهار داشت: الون وی۳ رساترین مدل تبدیل متن به گفتار تا به امروز است که کنترل کامل را بر احساسات، نحوه بیان و نشانه های غیر کلامی عرضه می کند. کاربران با بهره گیری از برچسب های صوتی می توانند آنرا به زمزمه، خنده، تغییر لهجه یا حتی آواز خواندن ترغیب کنند. آنها می توانند سرعت، احساسات و سبک را برای مطابقت با هر نوع نوشتار کنترل کنند. با مأموریت جهانی خود، ما خوشحالیم که این مدل را با پشتیبانی از بیشتر از ۷۰ زبان گسترش می دهیم. این نسخه نتیجه چشم انداز و رهبری همکار من« پیوتر»(Piotr) و گروه پژوهشی فوق العاده ای است که او تشکیل داده بود.

ایجاد یک محصول خوب دشوار می باشد اما ایجاد یک الگوی کاملا جدید تقریبا غیر امکان دارد. من و همه ما در الون لبز از دیدن جادویی که این تیم به زندگی می بخشد، احساس خوش شانسی می نماییم و با این نسخه هیجان زده ایم که یک مرتبه دیگر مرزها را جابه جا نماییم.
الون وی۳ (آلفا) هم اینک در آدرس https: //elevenlabs.io موجود است.

این خبر درباره معرفی نسخه جدید هوش مصنوعی ElevenLabs v3 (آلفا) از شرکت ElevenLabs است که پیشرفت‌های چشمگیری در حوزه تولید گفتار واقع‌گرایانه (Text-to-Speech) ارائه می‌دهد. این مدل با معماری جدید خود، قابلیت‌های بی‌سابقه‌ای را در تولید گفتار به ارمغان می‌آورد؛ از جمله توانایی تغییر لحن در اواسط جمله، جابجایی یکپارچه بین شخصیت‌های مختلف و پاسخگویی به نشانه‌های غیرکلامی مانند نجوا، خنده و آه کشیدن، بدون ایجاد اختلال در جریان گفتار.

مهم‌ترین ویژگی‌های این نسخه شامل پوشش بیش از ۷۰ زبان (که پوشش جمعیتی از ۶۰ به ۹۰ درصد افزایش یافته است)، حالت گفتگو برای مدیریت وقفه‌های طبیعی و جریان احساسی در مکالمات چندنفره، برچسب‌های صوتی برای کنترل دقیق بیان (مانند عصبانیت، خنده و زمزمه) و پشتیبانی از پخش زنده برای کاربردهایی مانند مراکز تماس، می‌شود. این قابلیت‌ها باعث می‌شوند که ElevenLabs v3 برای تولیدکنندگان محتوا، توسعه‌دهندگان و شرکت‌ها در حوزه‌هایی مانند داستان‌گویی، کتاب‌های صوتی و تعاملات رسانه‌ای بسیار جذاب باشد. این مدل به گونه‌ای طراحی شده که واقعیت و ظرافت‌های احساسی گفتگوی انسانی را در زبان‌های متعدد تقلید کند و مرزهای تبدیل متن به گفتار را جابجا سازد.

تاثیر ElevenLabs v3 بر جمینای گوگل

در حالی که ElevenLabs با ElevenLabs v3 استانداردهای جدیدی را در واقع‌گرایی تولید گفتار تعریف می‌کند، گوگل نیز در حوزه هوش مصنوعی مکالمه‌ای و تولید گفتار سرمایه‌گذاری‌های عظیمی انجام داده است. مدل‌های تولید گفتار گوگل که بخشی از اکوسیستم جمینای (Gemini) و سایر محصولات هوش مصنوعی این شرکت هستند، در طول سالیان متمادی پیشرفت‌های چشمگیری داشته‌اند.

یکی از جنبه‌هایی که گوگل به طور خاص بر آن تمرکز کرده، کاربردهای عملی و یکپارچه‌سازی هوش مصنوعی گفتاری در محصولات روزمره است. این شامل سیستم‌های دستیار صوتی (مانند Google Assistant)، سرویس‌های نقشه، ترجمه لحظه‌ای و حتی ابزارهای تولید محتوا می‌شود. در حالی که ElevenLabs بر "بیان احساسی و ظرافت‌های انسانی" تمرکز زیادی دارد، گوگل بیشتر بر کارایی، سرعت و مقیاس‌پذیری برای پشتیبانی از میلیاردها کاربر در سطح جهان تمرکز کرده است.

با این حال، با دیدن پیشرفت‌های ElevenLabs v3 در "حالت گفتگو" و "برچسب‌های صوتی"، می‌توان انتظار داشت که گوگل نیز در نسخه‌های آینده مدل‌های تولید گفتار خود، این قابلیت‌ها را تقویت کند. رقابت در این حوزه، به ویژه با ظهور مدل‌های چندوجهی که می‌توانند متن، تصویر، ویدئو و صدا را به صورت یکپارچه پردازش و تولید کنند، بسیار شدید است. گوگل با منابع عظیم داده، قدرت محاسباتی بالا و تخصص عمیق در یادگیری ماشین، قطعاً به دنبال آن خواهد بود که جمینای و سایر مدل‌های هوش مصنوعی خود را به سطحی از واقع‌گرایی و کنترل‌پذیری در گفتار برساند که با ElevenLabs رقابت کند یا حتی از آن پیشی بگیرد.

جنبه مهم دیگر در این رقابت، کاربردهای تجاری و سازمانی است. ElevenLabs v3 به طور خاص برای "سازندگان، توسعه‌دهندگان و شرکت‌ها" طراحی شده است. گوگل نیز با ارائه APIهای قدرتمند برای مدل‌های هوش مصنوعی خود، به دنبال جذب همین بخش از بازار است. ممکن است در آینده نزدیک شاهد باشیم که شرکت‌های بزرگی مانند گوگل، با ادغام مدل‌های تولید گفتار پیشرفته‌تر در سرویس‌های ابری خود (مانند Google Cloud AI), به مشتریان تجاری امکان تولید محتوای صوتی بسیار واقع‌گرایانه‌تر را بدهند که می‌تواند کاربردهای گسترده‌ای در بخش‌هایی مانند خدمات مشتری، آموزش الکترونیکی و تولید محتوای رسانه‌ای داشته باشد. چالش اصلی برای همه این شرکت‌ها، اخلاق در استفاده از هوش مصنوعی مولد، به ویژه در تولید صدای انسان، و جلوگیری از سوءاستفاده‌های احتمالی مانند جعل هویت یا انتشار اطلاعات غلط از طریق صداهای ساخته‌شده خواهد بود.

منبع: linkbegir.com

در این مطلب خواندید: