Окрім "занурення" локалізації ШІ, найбільша зміна в секторі ШІ останнім часом - це технологічний прорив у генерації мультимодальних відео, який еволюціонував від підтримки чисто текстової генерації відео до повністю інтегрованої технології генерації, що поєднує текст, зображення та аудіо.
Ось кілька прикладів технологічних проривів, які можуть відчути всі:
1) ByteDance випускає EX-4D фреймворк з відкритим кодом: Монокулярне відео миттєво перетворюється у 4D контент з вільною точкою зору, з рівнем прийняття користувачами 70,7%. Це означає, що для звичайного відео ШІ може автоматично генерувати ефекти перегляду з будь-якого кута, що раніше вимагало професійної команди 3D моделювання.
2) Платформа Baidu "Hui Xiang": генерує 10-секундне відео з одного зображення, стверджуючи, що досягає "кінематографічної" якості. Однак, чи є це перебільшенням з боку маркетингу, залишиться незрозумілим до оновлення Pro-версії у серпні.
3) Google DeepMind Veo: Може досягати генерації 4K відео + синхронізації звуку навколишнього середовища. Ключовою технологічною особливістю є досягнення можливості "синхронізації", оскільки раніше це було зрощення двох систем для відео та аудіо. Для досягнення справжнього семантичного відповідності необхідно подолати значні виклики, такі як у складних сценах, де потрібно вирішити синхронізацію ходьби у відео та відповідних звуків кроків.
4) Контент Douyin: 8 мільярдів параметрів, 2,3 секунди для генерації відео 1080p, коштує 3,67 юаня/5 секунд. Якщо чесно, цей контроль витрат досить хороший, але наразі, враховуючи якість генерації, він все ще відстає при зустрічі зі складними сценами.
Чому говорять, що ці випадки мають значну вартість і значення з точки зору проривів у якості відео, виробничих витратах і сценаріях застосування?
1. Щодо проривів у технологічній цінності, складність генерації мультимодального відео часто є експоненційною. Одна рамка зображення складається приблизно з 10^6 пікселів, а відео повинно забезпечувати тимчасову узгодженість (принаймні 100 кадрів), разом із синхронізацією аудіо (10^4 точки вибірки на секунду), водночас враховуючи 3D просторову узгодженість.
У підсумку, технічна складність не є низькою. Спочатку це була надзвичайно велика модель, яка вирішувала всі завдання безпосередньо. Кажуть, що Sora спалив десятки тисяч H100 для досягнення можливостей генерації відео. Тепер це може бути реалізовано через модульну декомпозицію та співпрацю великих моделей. Наприклад, EX-4D від Byte насправді розбиває складні завдання на: модуль оцінки глибини, модуль перетворення точки зору, модуль тимчасової інтерполяції, модуль оптимізації рендерингу тощо. Кожен модуль спеціалізується на одній задачі, а потім координується через механізм.
2. Щодо зниження витрат: насправді це включає оптимізацію самої архітектури міркування, зокрема, стратегія генерації в кілька шарів, де спочатку створюється скелет низької роздільної здатності, а потім покращується контент з високою роздільною здатністю; механізм повторного використання кешу, який є повторним використанням подібних сцен; та динамічне розподілення ресурсів, яке насправді регулює глибину моделі залежно від складності конкретного контенту.
З цим набором оптимізацій ми досягнемо результату 3.67 юаня за 5 секунд для Douyin ContentV.
3. Що стосується впливу на застосування, традиційне виробництво відео є капіталомісткою справою: обладнання, приміщення, актори, пост-продакшн; нормально, коли 30-секундна реклама коштує сотні тисяч. Тепер штучний інтелект стискає весь цей процес до запиту плюс кілька хвилин очікування, і може досягти перспектив і спецефектів, які важко досягти традиційною зйомкою.
Це перетворює оригінальні технічні та фінансові бар'єри відеовиробництва на креативність і естетику, що може сприяти перетворенню всієї економіки творців.
Виникає питання, яке відношення між змінами на стороні попиту веб2 AI технології та веб3 AI?
1. По-перше, зміна в структурі попиту на обчислювальну потужність. Раніше в ІП, конкуренція базувалася на масштабах; той, хто мав більше однорідних кластерів GPU, вигравав. Однак попит на мультимодальну генерацію відео вимагає різноманітного поєднання обчислювальної потужності, що може створити потребу в розподіленій невикористаній обчислювальній потужності, а також у різних розподілених моделях доопрацювання, алгоритмах та платформах інференції.
2. По-друге, попит на маркування даних також зміцниться. Генерація відео професійного рівня вимагає: точних описів сцен, референсних зображень, аудіо стилів, траєкторій руху камери, умов освітлення тощо, що стане новими професійними вимогами до маркування даних. Використання методів стимулювання Web3 може заохотити фотографів, звукових інженерів, 3D-художників та інших надавати професійні елементи даних, підвищуючи можливості генерації відео ШІ завдяки спеціалізованому вертикальному маркуванню даних.
3. Нарешті, варто згадати, що коли ШІ поступово переходить від централізованого великомасштабного розподілу ресурсів до модульної співпраці, він сам по собі представляє новий попит на децентралізовані платформи. У цей час обчислювальна потужність, дані, моделі, стимули тощо спільно сформують самопідтримувальне колесо, яке, в свою чергу, стимулюватиме інтеграцію сценаріїв web3AI та web2AI.
Поділіться