MAGI-1 هو نموذج متطور لتوليد الفيديو ذاتي الانحدار يقوم بإنشاء مقاطع فيديو عالية الجودة من الصور ومطالبات النص.
يوفر MAGI-1 قدرات متطورة لتوليد الفيديو، حيث يجمع بين أحدث تقنيات الذكاء الاصطناعي وعناصر تحكم سهلة الاستخدام.
قم بتوليد مقاطع فيديو جزءًا بعد جزء باستخدام بنيتنا ذاتية الانحدار، مما يتيح النمذجة الزمنية السببية والتوليد عبر البث المباشر.
حوّل أي صورة إلى فيديو ديناميكي بحركة سلسة وتناسق زمني عالٍ.
أنشئ فيديوهات من أوصاف نصية مع تحكم دقيق في المحتوى، النمط، والحركة.
وسّع الفيديوهات الموجودة بمحتوى تم إنشاؤه بواسطة الذكاء الاصطناعي يحافظ على التناسق مع اللقطات الأصلية.
تنبؤ ممتاز بالسلوك الفيزيائي، متفوقًا على النماذج الحالية في التناسق المكاني والزماني.
تحكم دقيق في توليد الفيديو مع مطالبة جزء بجزء لانتقالات المشهد والتوليف طويل المدى.
يستخدم MAGI-1 نهجًا ثوريًا ذاتي الانحدار لتوليد الفيديو، حيث ينشئ الفيديوهات جزءًا بعد جزء بدلاً من إنشائها بالكامل.
قم بتحميل صورة أو أدخل مطالبة نصية تصف الفيديو الذي تريد إنشاءه.
يعالج نموذجنا ذو 24 مليار معلمة مدخلاتك باستخدام تقنية VAE المعتمدة على Transformer وتقنية الانتشار.
يقوم النموذج بتوليد أجزاء الفيديو تسلسليًا، مما يضمن التناسق الزمني والحركة الطبيعية.
قم بتنزيل الفيديو عالي الجودة بصيغة MP4، جاهزًا للاستخدام في أي مشروع.
24 مليار معلمة
VAE قائم على Transformer
حتى 1280×720 (HD)
24 إطار في الثانية
حتى 30 ثانية
MP4 (H.264)
شاهد ما يمكن تحقيقه باستخدام MAGI-1. هذه الأمثلة تُظهر جودة نموذجنا لتوليد الفيديو وتعدده.
تم إنشاؤه من صورة واحدة لشاطئ عند غروب الشمس، تُظهر حركة الماء الطبيعية وتأثيرات الإضاءة.
توليد من النص إلى الفيديو يُظهر تدفق المرور الواقعي والإضاءة في بيئة حضرية.
تحويل الصورة إلى فيديو يُظهر عملية تفتح زهرة طبيعية بحركة سلسة.
توليد من النص إلى الفيديو مع فيزياء ماء وتأثيرات بيئية واقعية.
تصيير فني لسديم فضائي مع حركة سحابة ديناميكية وتأثيرات نجمية.
MAGI-1 هو نموذج متطور لتوليد الفيديو ذاتي الانحدار تم تطويره بواسطة Sand AI. يمثل تقدمًا كبيرًا في تقنية توليد الفيديو بواسطة الذكاء الاصطناعي.
على عكس نماذج توليد الفيديو التقليدية التي تنشئ مقاطع فيديو كاملة دفعة واحدة، يستخدم MAGI-1 نهجًا مبتكرًا ذاتي الانحدار، حيث يولد مقاطع الفيديو جزءًا بعد جزء. وهذا يتيح تحكمًا أكثر دقة، وتناسقًا زمنيًا أفضل، والقدرة على إنشاء فيديوهات أطول بسرد متماسك.
تم بناء النموذج على بنية قائمة على Transformer مع 24 مليار معلمة، وتم تدريبه على مجموعة بيانات متنوعة من الفيديوهات عالية الجودة. إنه يتفوق في فهم الديناميكيات الفيزيائية، والحفاظ على الاتساق المكاني، وإنتاج حركة واقعية.
ابدأ في إنشاء فيديوهات عالية الجودة من الصور والنص مجانًا. لا يلزم التسجيل.