Google سابقه قتل برنامه های پیام رسانی ناخوشایند را به نفع برنامه های ارتباطی جدیدتر داشته است که در نهایت کشته می شوند. گوگل Duo تاکنون استثنائی از آنجایی که در کنار Allo ، سرویس پیام رسانی اکنون غیرقانونی ، راه اندازی شده است. Duo به طور مداوم مورد توجه Google و افزودن مکرر از ویژگی های جدید مانند پشتیبانی 1080p در تلفن های 5G سامسونگ S20 ، زیرنویسهای (پخش مستقیم) ، doodles و حداکثر 12 شرکت کننده در یک تماس گروهی قرار گرفته است. اکنون ، گوگل در حال یادگیری ماشینی است تا مشکل اصلی تکان دهنده ها را برای یک تجربه صوتی روانتر و بدون وقفه کاهش دهد.

تماس ویدیویی به یک روش اساسی برای برقراری ارتباط رسمی در دوره قرنطینه COVID-19 تبدیل شده است و صدای تند و تیز می تواند برای شما یا هزینه شما باشد. شرکت مالی گوگل اذعان می کند که 99٪ از تماس های Duo به دلیل تاخیر در شبکه دچار وقفه می شوند. در حدود یک پنجم از این تماسها ضعف 3٪ در صدا را متحمل می شود در حالیکه یک دهم تقریباً 8٪ صدا را از دست می دهد ، که بسیاری از آنها می توانند اطلاعات بسیار مهمی باشند که در نهایت از بین رفته اید. این اتفاق می افتد زیرا بسته های داده با تاخیر یا از بین می روند و عدم وجود این بسته ها منجر به لرزش در صدا می شود و بخش اعظم آن را غیرقابل درک می کند.

الگوریتم یادگیری ماشین جدید WaveNetEQ گوگل بر روی تکنیکی بنام "پنهان کردن بسته های از دست دادن" کار می کند. "(PLC) WaveNet EQ یک مدل تولیدی مبتنی بر WaveRNN DeepMind است و تکه های صوتی ایجاد می کند تا شکاف هایی را با پرکننده های واقع گرایانه برقرار کند. مدل هوش مصنوعی با تغذیه تعداد زیادی از داده های مرتبط با گفتار آموزش داده شده است. با توجه به رمزگذاری نهایی تا پایان در Google Duo ، این مدل در دستگاه گیرنده اجرا می شود. اما گوگل ادعا می کند که " به اندازه کافی سریع برای راه اندازی یک تلفن به کار می رود ، در حالی که هنوز هم کیفیت صوتی پیشرفته ای را ارائه می دهد. "

WaveRRN به یک مدل متن به گفتار تکیه می کند و علاوه بر این آموزش داده شده برای "چه بگویم" ، همچنین برای چیزهای "چگونه می گویند" آموزش داده شده است. این تجزیه و تحلیل ورودی با یک درک آوایی قوی برای پیش بینی صداها در آینده نزدیک. علاوه بر پر کردن شکاف ها ، این مدل همچنین صوتی مازاد در شکل موج خام تولید می کند تا بخشی را که زیر لرزش است ، به هم بخورد. این سیگنال با صدای واقعی با اندکی تلاقی همپوشانی دارد و منجر به یک انتقال نرم تر می شود.

مدل WaveNetEQ گوگل Duo در 48 زبان آموزش داده شده توسط 100 نفر آموزش دیده است تا بتواند ویژگی های عمومی صدای انسان را بیاموزد. فقط یک زبان این مدل برای تولید بیشتر هجاها آموزش داده شده است و می تواند تا 120 میلی متر شکاف طولانی را پر کند.

این ویژگی در Google Pixel 4 موجود است و اکنون در سایر دستگاه های اندرویدی به بازار عرضه می شود.


منبع: Google AI Blog [19659008] XDA » خلاصه خبر» » مدل یادگیری ماشین جدید WaveNetEQ گوگل کیفیت صدا را در Duo بهبود می بخشد

آیا می خواهید پست های بیشتری مانند این به صندوق ورودی شما ارسال شود؟ ایمیل خود را وارد کنید تا در خبرنامه ما مشترک شوید.