يمكن العثور على مقاطع الفيديو الخاصة بالذكاء الاصطناعي في كل مكان، لكن الأمر ليس بهذه البساطة التي تتصورها.
"تم استخدام تقنية الذكاء الاصطناعي على ما يبدو، يرجى توخي الحذر والتمييز."
هل لاحظ الجميع أن هذه النصوص الصغيرة تشبه قليلاً عبارة "الإعلان للإشارة فقط، يجب الاعتماد على البضاعة الفعلية"؟ لقد أصبحت هذه العبارة شبه شائعة في الحياة اليومية.
خصوصا على منصات الفيديو القصيرة الحالية.
لقد شاهدت فيديو صغير لقطة، هذا الفيديو تم توليف فمها بتقنية الذكاء الاصطناعي.
المحتوى من مستخدم TikTok @ 墩墩吃不饱
هل تريد ترجمة هذا النص إلى العربية؟
حتى عند مشاهدة فيلم رسوم متحركة، يكون الرسم دائمًا مركب بواسطة الذكاء الاصطناعي.
يزداد عدد مقاطع الفيديو الخاصة بالذكاء الاصطناعي بشكل متزايد.
على الرغم من أن Sora التي أثارت موجة الفيديو الذكاء الاصطناعي لا تزال تعاني، إلا أن عصر الفيديوهات الذكية ربما قد حل بصمت.
تنبأ تقرير بحثي من Dongwu Securities بأن المجال الصناعي المحتمل لتوليد مقاطع الفيديو بتقنية الذكاء الاصطناعي في الصين قد يمتلك سوقًا قيمتها أكثر من 5800 مليار يوان.
ولكن مع ارتفاع حرارة السوق بشكل مستمر، بدأت بعض المشاكل في الصناعة تظهر تدريجياً أمام الجمهور:
تابع الفيديو والذكاء الاصطناعي هما حقًا المستقبل، ولكن القضايا المتعلقة بالتكلفة والجودة والتعاون والأداء تلف حول رؤوس جميع شركات الشباب والشركات الكبيرة.
تأخذ قضايا التكلفة والجودة كمثال.
الجميع يعلم أن النماذج الكبيرة الحالية ذات التوليد الجيد بالخصوص في الفيديوهات، هي عملية تحتاج إلى تكريس جهود كبيرة واستخدام كميات هائلة من البيانات للتدريب.
ومن ناحية أخرى، ستزيد الكميات الهائلة من بيانات التدريب الخاصة بالفيديو من الطلب على الحوسبة ومعالجة البيانات، بالإضافة إلى الطلب على البيانات بحد ذاتها، وزيادة التكاليف الهائلة المصاحبة لهذا .
كطلب مُعين، إليك الترجمة إلى اللغة العربية:
"كون GPT-4 جهازًا ذكيًا من الطراز القديم، كانت تكلفة التطوير تقدر بـ 100 مليون دولار "فقط"، بينما كانت تكلفة التدريب تتراوح حوالي 78 مليون دولار."
وتزداد تكلفة تدريب نماذج الفيديو بشكل أكبر، وعلى سبيل المثال، نموذج الفيديو "Sora" الذي تم إطلاقه في بداية العام، يحتاج إلى 4.5 مرات قوة الحساب المطلوبة لـ GPT-4 للتدريب والاستنتاج بنسبة تقريبية تصل إلى 400 مرة.
بالإضافة إلى تكلفة التدريب الباهظة، جودة عينات تدريب النماذج الكبيرة، وتعقيد سلسلة المعالجة، تتضمن عدة جوانب تتطلب تعاون العديد من الفرق؛ سواء كانت تطويرًا خاصًا أو من جهات خارجية، مع موارد حوسبة مختلفة مثل وحدات GPU و CPU و ARM، ويتطلب أيضًا جدولة ونشر مرنة...
لذلك، بالنسبة للشركات الكثيرة التي تعتزم استخدام الذكاء الاصطناعي في الفيديو، الأمر الأهم هو البحث عن طرق لحل هذه المشاكل لكي يمكنها التطور بسرعة.
يركز الحديث عن خبراء اللعب في الفيديو، فإن لدينا الكثير لنقول عن تطبيقي دوين وهواش المتصفح.
PixelDance هي ميزة رائعة أطلقتها شركة بيت ديو Byte في نهاية الشهر الماضي.
لقد كتبنا مقالًا خاصًا للجميع في ذلك الوقت، اطلعوا عليه فقط لمعرفة كيفية استخدام الفيديو الذي تم إنشاؤه بسهولة، سترون أنه حقًا يحمل شيئًا معينًا.
وفي المؤتمر التقني لمحرك الفيديو السحابي الذي انتهى في الخامس عشر من هذا الشهر، تم استخدام شخصية رقمية مخصصة تدعى تان دي للتواصل مع الجميع.
المؤثرات البصرية كانت بمثابة نجاح كبير حتى أن الحضور في الموقع، كثيرون منهم اعتقدوا أنها تمثل تلاعباً في الفيديو.
وفي الحقيقة، لا يمكن تحقيق هذه النتائج الرائعة لإنتاج الذكاء الاصطناعي ذي الجودة العالية دون إطار ذكاء اصطناعي يسمى BMF.
محرك بركان يقوم بتعاون داخلي مع فريق النماذج الكبيرة الخاص به لمعالجة مُسبقة لكميات كبيرة من البيانات الفيديو.
في النهاية، باستخدام منصة معالجة الصوت والفيديو عبر محرك البرامج النصية وإطار العمل BMF، تم إنتاج كمية كافية من مواد الفيديو عالية الجودة في وقت قصير، والتي تستخدم لتدريب النماذج، مما أدى إلى ظهور PixelDance.
BMF ، أحد الأبطال البارزين، كيف يمكنه تحقيق كل هذا؟
بالطبع، يمكننا استخدام مثالًا شائعًا من الحياة للشرح. فقد نقول مثلاً "عندما تذهب إلى المطعم وتطلب طبقًا من الطعام، وتتلقى الفاتورة بعد ذلك، يجب عليك دفع المبلغ المدون على الفاتورة قبل أن تغادر المطعم."
تطوير نموذج كبير لشركة ما يشبه إعداد عشاء رأس السنة في منزلك.
لتناول وجبة عشاء رأس السنة الغنية، يقوم والدك بشراء الخضروات، وتقوم والدتك بطهي الطعام، وتقوم جدتك بعمل الجيودز، وأنت بنقل الطاولات والكراسي والمقاعد...
يجب على الجميع تقسيم الأعمال ، العمل بجد من البداية حتى النهاية ، وربما تحتاج أيضًا إلى الاتصال من حين لآخر أو إرسال رسالة عبر ويشات للمساعدة المتبادلة. وعند الحساب النهائي ، يا لها من صدمة ، يبدو أن تناول وجبة عشاء رأس السنة يتطلب هذا المبلغ من المال.
BMF هو حزمة "العشاء السنوي بنقرة واحدة" التي تم إطلاقها بواسطة محرك البرمجيات الناري. يوفر سلسلة من الأدوات والخدمات التي تساعدك على تحضير وجبة العشاء السنوية بسهولة وسرعة.
تم التركيز في هذه الحزمة على حل 4 نقاط مؤلمة محددة التي تم ذكرها سابقًا، وتم إجراء التعديلات اللازمة.
على سبيل المثال، من أجل حل مشكلة جودة بيانات التدريب الخاصة بالفيديو، قاموا بتطبيق مجموعة متنوعة من الخوارزميات لتحليل الفيديو من عدة جوانب وإجراء عمليات تصفية مفصلة، مما أدى إلى تحقيق فلترة دقيقة للبيانات.
تعاملوا مع مشاكل الأداء من خلال جدولة مرنة باستخدام إطار عمل BMF، وقاموا بتخصيص الأداء مسبقًا.
هذا يعادل إعداد عشاء رأس السنة حيث تم التخطيط له مُسبقًا، وقد قام شخص ما بشراء الطعام من خدمة التوصيل وترك الطبخ لشيف خمس نجوم ليتعامل مع الطهي، وتم ترتيب الطاولات والكراسي والمقاعد بواسطة عمال مهرة لتنظيم الأمور...
بشكل عام، استخدموا إطار عمل BMF، مما يوفر الراحة والاقتصاد والوقت.
لقد قمنا بتلبية احتياجات الشركة، ولم ننسى أيضًا محرك البركان.
الآن، تزداد قوة حواسيب الجميع باستمرار، ومع ذلك، يأتي الطلب الشديد على تحسين جودة الفيديو.
محرك بركان يستفيد من ميزات فريدة ليدير كميات هائلة من الفيديوهات والصور يوميًا على تطبيقات مثل TikTok وWatermelon، حيث يواجه ما يقارب من مليار مستخدم.
بعد الحصول على تجربة غنية بهذا القدر، قادت محرك البرمجيات البيولوجية (BMF) إلى خلق نسخة أخف في الوزن وأكثر كفاءة وأكثر عمومية تُسمى "BMF lite"، مما حقق تطورًا يُعد أكثر تلبية لاحتياجات المستخدمين العاديين.
على سبيل المثال، بالمقارنة مع الحوسبة السحابية، تكون حساسية المستخدم لاستهلاك الطاقة والذاكرة على الطرفين (الجهاز المستخدم) كبيرة جدًا، وتشمل السيناريوهات منصات متعددة مثل Android و iOS والحواسب الشخصية.
ثم قام BMF-Lite بتصميم إطار عمل موجه لبناء حزم الخوارزميات المعتمدة على النظام العابر للمنصات وإعادة استخدام الموارد.
تم توحيد شكل واجهات العمل عبر المنصات المختلفة لتسهيل الإدماج والنشر.
استخدام وحدة تحكم الخوارزمية مرة أخرى لإعادة استخدام نفس حالة الخوارزمية تمكن من تحقيق أقصى قدر من استخدام الموارد في سيناريو تشغيل تطبيق TikTok للفيديوهات، حيث يكون تشغيل الفيديو عند الطلب والبث المباشر عادة ما يكونا نشطين، وبالتالي يُمكن إعادة استخدام الموارد بكفاءة.
بالإضافة إلى إطار الذكاء الاصطناعي الذي يتمثل في BMF، قدم محرك البرمجيات الذكي مفهومين إضافيين وهما القوة الحسابية الذكية والترميز وفك الترميز الذكي.
قام محرك البحث الصيني بإطلاق شريحة تحويل الفيديو التي طورتها بنفسها العام الماضي، حيث قامت بدمج تقنية التشفير وفك التشفير الخاصة بها في الشريحة.
الفائدة هي أن هذا الشريحة المحوسبة للترميز لديها كثافة حسابية أعلى خصيصًا لسيناريوهات معينة مثل تشغيل الفيديو عند الطلب أو البث المباشر.
تقول إن قدرة ترميز وفك تشفير مجموعة شرائح الفيديو على الخادم تعادل قدرة مئات من خوادم وحدة المعالجة المركزية (CPU).
عندما تم إطلاق رقاقة تحويل الفيديو اليوم على تطبيق TikTok، بينت البيانات التجريبية أنه يمكن توفير أكثر من 95٪ من التكلفة بفعالية ضغط الفيديو بنفس جودة الضغط.
وفيما يتعلق بطبقة الترميز والفك، قدم محرك البركان "مشفر BVE1.2" الذي يعتمد على رقاقة تحويل الفيديو المصنعة بالشركة.
قدم هذا المُشَفّر مزيجًا جريئًا من تقنيات التعلم العميق، وأطلق حلاً ثوريًا لترميز وفك ترميز ذكي مختلط، حيث تم دمج تقنيات الضغط التقليدية مع تقنيات ضغط التعلم العميق بشكل عضوي كجزء واحد، مما زاد من كفاءة الترميز وأداء الترميز بشكل كبير.
في تحدي ضغط الصور العميقة السادس الذي اختتم مؤخرًا (مسابقة CLIC)، فاز "مشفر BVE1.2" بجائزتين تكفي لإظهار قوته.
هل يمكنني مساعدتك في ترجمة هذا النص إلى العربية؟ "هذه مجموعة من الضربات المتتالية، ويبدو أن الشركات المهتمة تفكر كلها في "أين يمكننا مسح رموز الدفع؟"
لا تستطيع أن تقول أن محرك البركان لم يكن ينوي إخفاء شيئًا.
مثلما تم الذكر سابقًا ، تم تقديم إطار العمل BMF كمشروع مفتوح المصدر منذ العام الماضي ، وتم تحديث BMF lite وفتح المصدر أيضًا.
بشكل عام، يمازل تطور النماذج الكبيرة قائمًا حتى الآن، والمنافسة بين شركات الذكاء الاصطناعي للفيديو لن تزيد إلا في اشتداد.
لكن إذا كان الجميع يعمل بمعزل عن بعضه البعض ويتبارون بالنتائج، ويتحدثون بواسطة المنتجات فقط، فقد يبدو أن المنافسة زائدة والتعاون ناقص.
كونها شركة تابعة لـ ByteDance، وربما تكون أكثر الشركات في الصين التي تعمل في مجال الفيديو القصير بمهارة، فإن محرك البركان التابع لهم يفتح تكنولوجياها الداخلية والأطر مرارًا وتكرارًا.
الهيكل الذي توفره بي إم إف (BMF) بالإضافة إلى النظام القاعدي الذكي الذي يتألف من القوة الحسابية الذكية والترميز وفك الترميز الذكية، يمكنه فعلاً مساعدة الشركات في توفير الكثير من الوقت والتكاليف، وبذلك يساهم في تعزيز النجاح والنمو لمشاريع الذكاء الاصطناعي.
هذه النهج المتمثل في التنافس والتعاون المشترك هو ما يفضل رؤيته في مجال الذكاء الاصطناعي في الصين.
ترجمة العبارة إلى العربية:
"فرد الشجرة البراقة لا يمكن أن يصنع غابة، الآلاف من الألوان هي ما يجعل الربيع."