به گزارش لینک بگیر دات کام هوش مصنوعی شرکت «الون لبز» که متن را به گفتار تبدیل می کند، امکان کنترل بیان را برای تولید صدا به ارمغان می آورد و به جای خوانش های ساده، امکان اجرای واقعی را فراهم می کند.
به گزارش لینک بگیر دات کام به نقل از ایسنا، هوش مصنوعی «الون وی۳»(Eleven v3) شرکت «الون لبز»(ElevenLabs) که برپایه یک ساختار جدید ساخته شده است، واقع گرایی و کنترل بی سابقه ای را برای تولید گفتار به ارمغان می آورد. این نرم افزار می تواند لحن را در اواسط جمله تغییر دهد، به صورت یکپارچه بین شخصیت ها حرکت نماید و به نشانه هایی مانند نجوا، خنده و آه کشیدن پاسخ دهد. همه این موارد بدون ایجاد اختلال در جریان گفتار صورت می گیرند.
به نقل از دیجیتال ترمینال، این نسخه از هوش مصنوعی الون لبز یک نسخه «آلفا» است. این نسخه نسبت به مدلهای پیشین به مهندسی سریع تری نیاز دارد اما خروجی آن یک تغییر اساسی را در بیان، ظرافت و واقع گرایی انسانی عرضه می کند. این نسخه جدید، پشتیبانی از زبان های متعدد را از ۳۳ به بیشتر از ۷۰ زبان افزایش داده است. با تنظیم دقیق تر، قابلیت اطمینان و کنترل پذیری هم افزایش خواهد یافت.
قابلیت های مهم الون وی۳:
۱. پوشش دهی بیشتر از ۷۰ زبان؛ زبان های پوشش داده شده در الون وی۳ از ۳۳ زبان به بیشتر از ۷۰ زبان گسترش یافته اند و پوشش دهی جمعیت جهان از ۶۰ درصد به ۹۰ درصد افزایش داشته است.
۲. حالت گفتگو؛ الون وی۳ وقفه های طبیعی، تغییر لحن و جریان احساسی را بین چندین گوینده مدیریت می کند.
۳. برچسب های صوتی؛ الون وی۳ عرضه خویش را با برچسب هایی مانند زمزمه، عصبانیت، خنده یا صدای جیرجیر در هدایت می کند و امکان کنترل عملکرد را با جزئیات دقیق فراهم می آورد.
۴. پشتیبانی از پخش زنده؛ بزودی خصوصیت پشتیبانی از پخش زنده به شکل در لحظه برای مراکز تماس و اپراتورهای مکالمه عرضه می شود.
۵. API عمومی برای الون وی۳ (آلفا) بزودی منتشر می شود. کاربران برای دسترسی زودهنگام می توانند با بخش فروش شرکت تماس بگیرند.
الون وی۳ برای سازندگان، توسعه دهندگان و شرکت هایی طراحی شده است که محتوای شامل داستان ها، کتاب های صوتی، گفتگوی شخصیت ها و تعاملات رسانه ای را تولید می کنند. این مدل به آزمایش و عرضه بازخورد آگاهانه از متن ارج می نهد.
برای موارد استفاده در لحظه و با تأخیر کم مانند هوش مصنوعی محاوره ای سفارش شده که کاربران فعلا با مدلهای «توربو»(Turbo) و «فلش»(Flash) الون وی۲.۵ کار کنند. نسخه در لحظه الون وی۳ درحال توسعه است.
الون وی۳ کنترل بیان را برای تولید صدا به ارمغان می آورد و به جای خوانش های ساده، اجراهای واقعی را ممکن می سازد. این نسخه می تواند احساسات را تغییر دهد، نحوه ی بیان را تنظیم کند و یک حرکت روان را بین شخصیت های یک نسل داشته باشد. برای نخستین بار، گفتار هوش مصنوعی می تواند ریتم و ظرافت احساسی مکالمه انسانی را در بیشتر از ۷۰ زبان دنبال کند.
«ماتی استانیشفسکی»(Mati Staniszewski) از بنیان گذاران الون لبز و مدیرعامل این شرکت اظهار داشت: الون وی۳ رساترین مدل تبدیل متن به گفتار تا به امروز است که کنترل کامل را بر احساسات، نحوه بیان و نشانه های غیر کلامی عرضه می کند. کاربران با بهره گیری از برچسب های صوتی می توانند آنرا به زمزمه، خنده، تغییر لهجه یا حتی آواز خواندن ترغیب کنند. آنها می توانند سرعت، احساسات و سبک را برای مطابقت با هر نوع نوشتار کنترل کنند. با مأموریت جهانی خود، ما خوشحالیم که این مدل را با پشتیبانی از بیشتر از ۷۰ زبان گسترش می دهیم. این نسخه نتیجه چشم انداز و رهبری همکار من« پیوتر»(Piotr) و گروه پژوهشی فوق العاده ای است که او تشکیل داده بود.
ایجاد یک محصول خوب دشوار می باشد اما ایجاد یک الگوی کاملا جدید تقریبا غیر امکان دارد. من و همه ما در الون لبز از دیدن جادویی که این تیم به زندگی می بخشد، احساس خوش شانسی می نماییم و با این نسخه هیجان زده ایم که یک مرتبه دیگر مرزها را جابه جا نماییم.
الون وی۳ (آلفا) هم اینک در آدرس https: //elevenlabs.io موجود است.
این خبر درباره معرفی نسخه جدید هوش مصنوعی ElevenLabs v3 (آلفا) از شرکت ElevenLabs است که پیشرفتهای چشمگیری در حوزه تولید گفتار واقعگرایانه (Text-to-Speech) ارائه میدهد. این مدل با معماری جدید خود، قابلیتهای بیسابقهای را در تولید گفتار به ارمغان میآورد؛ از جمله توانایی تغییر لحن در اواسط جمله، جابجایی یکپارچه بین شخصیتهای مختلف و پاسخگویی به نشانههای غیرکلامی مانند نجوا، خنده و آه کشیدن، بدون ایجاد اختلال در جریان گفتار.
مهمترین ویژگیهای این نسخه شامل پوشش بیش از ۷۰ زبان (که پوشش جمعیتی از ۶۰ به ۹۰ درصد افزایش یافته است)، حالت گفتگو برای مدیریت وقفههای طبیعی و جریان احساسی در مکالمات چندنفره، برچسبهای صوتی برای کنترل دقیق بیان (مانند عصبانیت، خنده و زمزمه) و پشتیبانی از پخش زنده برای کاربردهایی مانند مراکز تماس، میشود. این قابلیتها باعث میشوند که ElevenLabs v3 برای تولیدکنندگان محتوا، توسعهدهندگان و شرکتها در حوزههایی مانند داستانگویی، کتابهای صوتی و تعاملات رسانهای بسیار جذاب باشد. این مدل به گونهای طراحی شده که واقعیت و ظرافتهای احساسی گفتگوی انسانی را در زبانهای متعدد تقلید کند و مرزهای تبدیل متن به گفتار را جابجا سازد.
تاثیر ElevenLabs v3 بر جمینای گوگل
در حالی که ElevenLabs با ElevenLabs v3 استانداردهای جدیدی را در واقعگرایی تولید گفتار تعریف میکند،
گوگل نیز در حوزه هوش مصنوعی مکالمهای و تولید گفتار سرمایهگذاریهای عظیمی انجام داده است. مدلهای تولید گفتار گوگل که بخشی از اکوسیستم جمینای (Gemini) و سایر محصولات هوش مصنوعی این شرکت هستند، در طول سالیان متمادی پیشرفتهای چشمگیری داشتهاند.
یکی از جنبههایی که گوگل به طور خاص بر آن تمرکز کرده، کاربردهای عملی و یکپارچهسازی هوش مصنوعی گفتاری در محصولات روزمره است. این شامل سیستمهای دستیار صوتی (مانند Google Assistant)، سرویسهای نقشه، ترجمه لحظهای و حتی ابزارهای تولید محتوا میشود. در حالی که ElevenLabs بر "بیان احساسی و ظرافتهای انسانی" تمرکز زیادی دارد، گوگل بیشتر بر کارایی، سرعت و مقیاسپذیری برای پشتیبانی از میلیاردها کاربر در سطح جهان تمرکز کرده است.
با این حال، با دیدن پیشرفتهای ElevenLabs v3 در "حالت گفتگو" و "برچسبهای صوتی"، میتوان انتظار داشت که گوگل نیز در نسخههای آینده مدلهای تولید گفتار خود، این قابلیتها را تقویت کند.
رقابت در این حوزه، به ویژه با ظهور مدلهای چندوجهی که میتوانند متن، تصویر، ویدئو و صدا را به صورت یکپارچه پردازش و تولید کنند، بسیار شدید است. گوگل با منابع عظیم داده، قدرت محاسباتی بالا و تخصص عمیق در یادگیری ماشین، قطعاً به دنبال آن خواهد بود که جمینای و سایر مدلهای هوش مصنوعی خود را به سطحی از واقعگرایی و کنترلپذیری در گفتار برساند که با ElevenLabs رقابت کند یا حتی از آن پیشی بگیرد.
جنبه مهم دیگر در این رقابت، کاربردهای تجاری و سازمانی است. ElevenLabs v3 به طور خاص برای "سازندگان، توسعهدهندگان و شرکتها" طراحی شده است. گوگل نیز با ارائه APIهای قدرتمند برای مدلهای هوش مصنوعی خود، به دنبال جذب همین بخش از بازار است. ممکن است در آینده نزدیک شاهد باشیم که شرکتهای بزرگی مانند گوگل، با ادغام مدلهای تولید گفتار پیشرفتهتر در سرویسهای ابری خود (مانند Google Cloud AI), به مشتریان تجاری امکان تولید محتوای صوتی بسیار واقعگرایانهتر را بدهند که میتواند کاربردهای گستردهای در بخشهایی مانند
خدمات مشتری،
آموزش الکترونیکی و تولید محتوای رسانهای داشته باشد. چالش اصلی برای همه این شرکتها، اخلاق در استفاده از هوش مصنوعی مولد، به ویژه در تولید صدای انسان، و جلوگیری از سوءاستفادههای احتمالی مانند جعل هویت یا انتشار اطلاعات غلط از طریق صداهای ساختهشده خواهد بود.
منبع: linkbegir.com