عندما نكتب جملة قصيرة ونضغط زر توليد الصورة، تبدو النتيجة وكأن الذكاء الاصطناعي تخيّل الصورة ثم رسمها. لكن ما يحدث خلف الكواليس ليس خيالًا ولا إلهامًا فنيًا، بل سلسلة دقيقة من العمليات الرياضية المعتمدة على أبحاث علمية امتدت لعقود في مجالات الرؤية الحاسوبية والتعلم العميق. لفهم هذه العملية، يجب أولًا أن نعرف كيف يفهم الذكاء الاصطناعي الصور، ثم كيف ينتقل من الفهم إلى التوليد.
بالنسبة للحاسوب، لم تكن الصورة سوى مصفوفة من الأرقام تمثل قيم الألوان في كل بكسل. لا توجد شجرة أو وجه أو شارع، بل بيانات رقمية صامتة. التحول الجذري بدأ مع تطور مجال الرؤية الحاسوبية Computer Vision، خصوصا مع ظهور الشبكات العصبية العميقة Deep Neural Networks، وبشكل أدق الشبكات العصبية الالتفافية Convolutional Neural Networks المعروفة اختصارا بـ CNNs. هذه الشبكات لا ترى الصورة دفعة واحدة، بل تحللها عبر طبقات متتالية. الطبقات الأولى تلتقط أنماطا بسيطة مثل الحواف والخطوط والتباينات اللونية، بينما تبدأ الطبقات الأعمق بدمج هذه الأنماط للتعرف على أشكال أكثر تعقيدًا مثل العيون، أو العجلات، أو ملامح الوجوه.
في نهاية هذه السلسلة، تتحول الصورة من شكلها البصري إلى تمثيل رياضي مضغوط يسمى المتجه أو التضمين Vector أو Embedding. هذا التضمين هو مجموعة أرقام تلخص المعنى البصري للصورة كما يفهمه النموذج. صورتان لقطتين، حتى مع اختلاف الإضاءة أو الخلفية، ستملكان متجهات متقاربة رياضيًّا، بينما تكون المسافة العددية بين صورة قطة وصورة طائرة أكبر بكثير. هذه التمثيلات تعيش داخل ما يسمى الفضاء الكامنLatent Space، وهو مفهوم أساسي في أنظمة الذكاء الاصطناعي الحديثة.
فهم الصور وحده لا يكفي، إذ إن التحدي الأكبر هو توليد صور جديدة. هنا تظهر نماذج التوليد العميق Deep Generative Models، وعلى رأسها نماذج الانتشار Diffusion Models التي تعد من أكثر التقنيات تقدمًا اليوم. الفكرة مستوحاة من الفيزياء الإحصائية. أثناء التدريب، يتم تشويش الصور الحقيقية تدريجيًا عبر إضافة ضوضاء عشوائية Noise خطوة بعد خطوة، إلى أن تفقد الصورة كل معناها البصري وتتحول إلى تشويش كامل. بعد ذلك، يتعلم النموذج العملية العكسية، أي كيفية إزالة هذه الضوضاء تدريجيا Denoising لإعادة بناء الصورة الأصلية.
هناك مراحل أساسية لنموذج الانتشار. في الجهة الأولى يتم إضافة الضوضاء إلى الصورة الأصلية تدريجيًّا حتى تصبح غير مفهومة تمامًا. في الجهة المقابلة، يتعلم النموذج إزالة هذه الضوضاء خطوة بعد خطوة، إلى أن يعيد بناء صورة واضحة وذات معنى. عند التوليد، يبدأ الذكاء الاصطناعي من ضوضاء عشوائية فقط، ثم يسير عكسيًّا حتى يصل إلى صورة كاملة.
لربط النص بالصورة، يتم تحويل الوصف اللغوي نفسه إلى تمثيل عددي باستخدام نماذج اللغة Language Models. الجملة التي يكتبها المستخدم تتحول إلى متجه لغوي Text Embedding يمثل معناها. أثناء عملية إزالة الضوضاء في نموذج الانتشار، يتم توجيه النموذج بهذا المتجه اللغوي، وهي آلية تعرف باسم التوليد المشروط Conditioned Generation. بهذه الطريقة، تتشكل الصورة النهائية بما يتوافق مع النص، داخل فضاء موحد يجمع اللغة والرؤية يعرف بالفضاء الكامن متعدد الوسائط Multimodal Latent Space.
من منظور علمي، لا يعني هذا أن الذكاء الاصطناعي يفهم الصور كما يفهمها الإنسان. لا يوجد وعي أو إدراك أو نية. ما يوجد هو تعلم إحصائي Statistical Learning قائم على تحليل كميات هائلة من البيانات، كما هو موضح في المراجع الكلاسيكية والحديثة في التعلم العميق. ومع ذلك، فإن هذا الفهم الرياضي أثبت فعالية غير مسبوقة، وأنتج أنظمة قادرة على محاكاة الإبداع البصري بدرجة مذهلة.
بعيدًا عن الجانب الإبداعي والترفيهي، تكمن الأهمية الحقيقية لهذه التقنيات في تطبيقاتها العلمية والحساسة. في مجال التشخيص الطبي، تُستخدم نماذج الرؤية الحاسوبية وتقنيات التوليد العميق لتحليل صور الأشعة السينية، والتصوير بالرنين المغناطيسي MRI، والتصوير المقطعي CT. تستطيع هذه الأنظمة اكتشاف أنماط دقيقة قد لا تُلاحظ بسهولة بالعين البشرية، خصوصًا في المراحل المبكرة للأمراض. كما أثبتت نماذج مثل Diffusion Models وVariational Autoencoders قدرتها على إعادة بناء الصور الطبية الناقصة أو منخفضة الجودة Image Reconstruction and Super-Resolution، مما يسمح بتحسين وضوح الصور دون الحاجة إلى إعادة التصوير أو تعريض المريض لجرعات إشعاع إضافية.
في المجال الأمني، تُستخدم هذه التقنيات في أنظمة المراقبة الذكية لتحسين جودة تسجيلات الكاميرات، وتقليل الضوضاء الناتجة عن الإضاءة الضعيفة أو ضغط الفيديو، وإعادة بناء أجزاء مفقودة من الصور. هذا يعزز دقة تحليل الأحداث والتعرف على الوجوه والأنماط السلوكية في البيئات الحساسة. كما تمتد هذه القدرات إلى ترميم الصور القديمة والتاريخية Image Restoration، وإلى تحسين صور الأقمار الصناعية في التطبيقات البيئية والتخطيط الحضري. علميًّا، تُجمع الدراسات الحديثة على أن هذه النماذج لا تحل محل الخبراء، بل تعمل كأدوات مساعدة عالية الدقة تدعم القرار البشري ولا تستبدله.
بالنسبة للقارئ غير المتخصص، يمكن تشبيه ما يحدث بطريقة تعلم الإنسان، لكن دون إحساس أو وعي. نحن نربط الكلمات بالصور عبر التجربة ونستخدم الخيال لإعادة تركيب ما نعرفه. الذكاء الاصطناعي يفعل شيئًا مشابهًا، ولكن عبر المتجهات والمعادلات والاحتمالات، وبسرعة هائلة. خلف كل صورة مولدة من نص، هناك عالم كامل من الرياضيات والإحصاء ونظريات التعلم، يعمل في صمت ليحوّل الكلمات إلى بكسلات ذات معنى.
| لمتابعة أهم وأحدث الأخبار انضموا إلينا عبر قناتنا على واتساب (channel whatsapp) .اضغط هنا
نسخ الرابط :