تقدم شركتا OpenAI و Google تقنياتهما الذكية الأخيرة هذا الأسبوع
تنافست الشركات التكنولوجية على مدى العامين الماضيين لجعل نماذج الذكاء الاصطناعي أذكى، ولكن الآن ظهر تركيز جديد: جعلها متعددة الوسائط. تتركز OpenAI و Google على نماذج الذكاء الاصطناعي التي يمكنها التبديل بسهولة بين فمها وعيونها وآذانها الروبوتية.
“متعددة الوسائط” هو الكلمة التي حظيت بأكبر الإهتمام، حيث تضع الشركات التكنولوجية رهاناتها على أكثر صورة جذابة لنماذجها من الذكاء الاصطناعي في حياتك اليومية. لقد فقدت شبكات الدردشة الخاصة بالذكاء الاصطناعي سحرها منذ إطلاق ChatGPT في عام 2022. لذا تأمل الشركات أن يكون التحدث إلى مساعد ذكاء اصطناعي ومشاركة الأشياء بصورة بصرية معه يبدوان أكثر طبيعية من الكتابة. عندما ترى نموذج ذكاء اصطناعي متعدد الوسائط يعمل بشكل جيد، يبدو وكأن الخيال العلمي أصبح واقعاً.
في يوم الاثنين، قدمت OpenAI GPT-4 Omni، الذي يذكر بطريقة ما الفيلم الديستوبي حول فقدان الاتصال الإنساني “Her”. تعني “Omni” القناة الشاملة، وتشجع OpenAI على قدرة النموذج على معالجة الفيديو بالإضافة إلى الصوت. أظهرت العرض التوضيحي ChatGPT ينظر إلى مشكلة رياضية من خلال كاميرا الهاتف، بينما طلب منه أحد أعضاء OpenAI بصوته مساعدته في حلها. تقول OpenAI إنها ستبدأ بتوفيرها للمستخدمين المتميزين الآن.
في اليوم التالي، كشفت Google عن مشروع Astra، الذي وعد بالقيام بنفس الشيء تقريبًا. استخدمت Florence Ion من Gizmodo الذكاء الاصطناعي متعدد الوسائط لتحديد الزهور الصناعية التي كانت تنظر إليها، والتي تعرفت عليها بشكل صحيح على أنها الزنبق. ومع ذلك، بدا مشروع Astra أبطأ قليلاً من GPT-4o، وكان الصوت أكثر روبوتية. أكثر مثل Siri من “Her”، ولكن سأترك لكم تحديد ما إذا كان ذلك شيئاً جيدًا. تقول Google أن هذا في مراحل مبكرة، وتلاحظ حتى بعض التحديات الحالية التي تغلبت عليها OpenAI.
“بينما قمنا بتحقيق تقدم كبير في تطوير أنظمة الذكاء الاصطناعي التي يمكنها فهم المعلومات متعددة الوسائط، فإن خفض وقت الاستجابة ليكون شيئًا محادثاتيًا يُعد تحديًا هندسيًا صعبًا”، قالت Google في مدونة.
قد تتذكرون Google’s Gemini demo video من ديسمبر 2023 والذي اتضح أنه تم تلاعب فيه بشكل كبير. وبعد ستة أشهر، لا تزال Google غير مستعدة لإطلاق ما أظهرته في تلك الفيديو، لكن OpenAI تسير بسرعة مع GPT-4o. يمثل الذكاء الاصطناعي متعدد الوسائط السباق الكبير التالي في تطوير الذكاء الاصطناعي، ويبدو أن OpenAI تكون الرابحة.
ميزة مهمة لـ GPT-4o هي أن النموذج الذكي الوحيد يمكنه معالجة الصوت والفيديو والنص بشكل أصلي. في السابق، كان يحتاج OpenAI إلى نماذج ذكاء اصطناعي منفصلة لترجمة الكلام والفيديو إلى نص بحيث يمكن ل GPT-4 الذي يعتمد على اللغة فهم هذه الوسائط المختلفة. يبدو أن Google قد لا تزال تستخدم عدة نماذج الذكاء الاصطناعي لأداء هذه المهام، حيث تظهر أوقات الاستجابة البطيئة.
رأينا أيضًا أوسع اعتماد لـ الأجهزة القابلة للارتداء بتقنية الذكاء الاصطناعي حيث تحتضن الشركات التكنولوجية الذكاء الاصطناعي متعدد الوسائط. يعد Humane AI Pin و Rabbit R1 و Meta Ray-Bans أمثلة على الأجهزة التي تعتمد على الذكاء الاصطناعي والتي تستخدم هذه الوسائط المختلفة. تعد هذه الأجهزة وعوداً بأن تجعلنا أقل اعتمادًا على الهواتف الذكية، على الرغم من أن Siri و Google Assistant قد يتم تمكينهما أيضًا بالذكاء الاصطناعي متعدد الوسائط في وقت قريب.
من المرجح أن تسمع المزيد عن الذكاء الاصطناعي متعدد الوسائط في الأشهر والسنوات القادمة. يمكن أن يجعل تطويره ودمجه في المنتجات الذكاء الاصطناعي أكثر فائدة بكثير. تساعد هذه التكنولوجيا في إخفاء المسؤولية عن تنقيح العالم إلى LLM وتسمح للذكاء الاصطناعي بـ “رؤية” و “سماع” العالم بنفسه.
Leave a reply