في عام 2023 ، سيحدث الذكاء الاصطناعي ثورة في الصوت عبر موجات الصوت التوليدية ، مستهلًا عصر الصوت

في عام 2023 ، سيحدث الذكاء الاصطناعي ثورة في الصوت عبر موجات الصوت التوليدية ، مستهلًا عصر الصوت

يتطور مجال إنتاج الصوت بسرعة ، وزاد العمل الذي يركز على رؤية الكمبيوتر (CV) ومعالجة اللغة الطبيعية (NLP) بشكل كبير في العام السابق. وقد دفع هذا العلماء في جميع أنحاء العالم إلى التفكير في ما يمكن أن تسهم به نماذج اللغة الكبيرة (LLMs) والتعلم العميق في هذا الموضوع. ستتم مناقشة أحدث النماذج الصوتية التي تم إصدارها مؤخرًا في هذه المقالة جنبًا إلى جنب مع كيفية تسهيل الدراسة المستقبلية في هذا المجال.
يُطلق على النموذج الأول اسم MusicLM ، وقد تم إنشاؤه بواسطة علماء من Google و IRCAM-Sorbonne Universite. يمكن وصف الموسيقى التي تم إنشاؤها بواسطة هذا النموذج في النص بأنها “لحن كمان مريح مصحوب بموسيقى غيتار مشوهة.” يمكن لنموذج MusicLM تعديل درجة وتيرة اللحن الصفير أو الهمهم لمطابقة مضمون النص المعلق لأنه تم تدريبه على وجه التحديد على وحدات w2v-BERT و SoundStream و MuLan المُدربة مسبقًا.
تقترح Google أيضًا SingSong ، وهو نظام يمكن أن ينتج صوتًا موسيقيًا مفيدًا لتأمين الصوت الصوتي لمطابقة الإدخال. تستخدم SingSong كلا من فصل المصدر بالإضافة إلى التقدم في نمذجة الصوت التوليدي ، وهما مجالان هامان من تكنولوجيا الموسيقى. قام الفريق بتعديل AudioLM لتوليد أصوات معينة من خلال تدريبه على البيانات المنفصلة عن المصدر باستخدام تقنية فصل المصدر التجارية المتاحة. اقترح الباحثون طريقتين للتمييز لرفع جودة الأصوات المعزولة بنسبة 55٪ مقارنةً بتحسين الصوت الأساسي AudioLM.
Moûsai هو نموذج نشر متتالي مشروط بالنص يمكّننا من إنشاء موسيقى استريو ذات سياق طويل 48 كيلو هرتز تعتمد على السياق عبر علامة الدقيقة. تم تطويره في جهد تعاوني من قبل باحثين من ETH Zürich ومعهد Max Planck للأنظمة الذكية. تم تطوير نموذج Moûsai من قبل الباحثين باستخدام الانتشار المتتالي على مرحلتين ، والذي يمكن تشغيله وتعليمه باستخدام الموارد التي توجد عادة في الكليات. تستغرق كل مرحلة من مراحل النموذج حوالي أسبوع للتدريب على وحدة معالجة رسومات A100.
AudioLDM ، نظام TTA الذي يستخدم LDMs المستمر لتحقيق جودة جيل متطورة ، له مزايا من حيث كفاءة الحوسبة والتلاعب بالصوت المشروط ، تم تقديمه من قبل جامعة Surrey بالشراكة مع Imperial College London. هذه الطريقة قادرة على تدريب LDM دون استخدام أزواج اللغة والصوت من خلال تعلم كيفية إنشاء الصوت مسبقًا في مساحة كامنة.
النماذج الأربعة الجديدة – MusicLM و SingSong و Moûsai و AudioLDM – التي تم إطلاقها مؤخرًا تجعل البحث المستمر في هذا المجال أسهل بكثير. التطورات الحديثة في إنشاء الصوت مثيرة. كل نموذج له استراتيجيته ومجموعة من المزايا ، ومن المتوقع حدوث تطورات مستقبلية في هذا المجال نتيجة لاستخدامه. هناك مزايا لا حصر لها يمكن أن يوفرها التعلم العميق ونماذج اللغة الكبيرة (LLMs) لإنشاء الصوت ، ومن المحتمل أن تحدث ابتكارات إضافية قريبًا.