شهدت تكنولوجيا توليد الصور من النصوص قفزة نوعية مدفوعة بنماذج الانتشار والتحليل الذاتي التلقائي، حيث لم يعد توليد صور تحاكي الواقع الفوتوغرافي يتطلب مهارات في برامج التصميم المعقدة مثل فوتوشوب، بل تحول الأمر إلى علم يعرف بهندسة الوصف يعتمد على صياغة شيفرات لغوية دقيقة وممنهجة لتوجيه نماذج الذكاء الاصطناعي لاستخراج تفاصيل بصرية معقدة بدقة مذهلة.
وتشير الدراسات التجريبية المنشورة في منصات البحث التقني إلى أن نماذج توليد الصور تمنح الكلمات الأولى في الوصف وزنا تقنيا أكبر مقارنة بالكلمات الأخيرة، مما يتطلب ترتيبا تسلسليا دقيقا لعناصر الوصف. فالبنية الرياضية والتقنية المثالية لبناء وصف فائق الواقعية تتكون من العناصر التالية:
لتوليد صورة واقعية، يجب أولا اختيار "المحرك" المناسب، فالنماذج الرائدة حاليا تعتمد على تقنيات انتشار متطورة (Diffusion Models) وأخرى تعتمد على المحولات (Transformers):
السر لا يكمن في كتابة وصف طويل، بل في كتابة وصف هيكلي، فوفقا لدليلي التصميم الصادرين عن مجتمع ميدجورني ومركز أبحاث أوبن إيه آي، تنقسم صياغة الأمر الواقعي إلى خمسة عناصر أساسية:
ابدأ بتحديد دقيق جدا للموضوع دون تعميم، فبدلا من كتابة "رجل عجوز"، اكتب "رجل عجوز يبلغ من العمر 70 عاما، تظهر على وجهه تجاعيد عميقة ونظرة حكيمة".
الإضاءة هي الفارق الجوهري بين الصورة التي تبدو كرسوم حاسوبية (CGI) والصورة الحقيقية، ولذلك استخدم مصطلحات التصوير الاحترافي:
💬 التعليقات (0)