Perfusion, рішення Nvidia для високих вимог до пам’яті для створення зображень штучного інтелекту
Дослідники Nvidia розробили нову техніку генерації зображень штучного інтелекту, яка дозволяє створювати налаштовані моделі тексту в зображення з мінімальними вимогами до пам’яті.
Відповідно до статті, опублікованої на arXiv, запропонований метод під назвою «Перфузія» може додавати нові візуальні концепції до існуючих моделей, використовуючи лише 100 КБ параметрів на концепцію.
Джерело: Nvidia Research
Як описують автори статті, Perfusion працює, «роблячи невеликі оновлення внутрішнього представлення моделі тексту в зображення».
Зокрема, він вносить ретельно прораховані зміни до тієї частини моделі, яка пов’язує текстові описи зі згенерованими візуальними функціями.Застосування невеликих параметричних змін до рівня перехресної уваги дозволяє Perfusion змінювати спосіб перетворення текстового введення на зображення.
Тому Perfusion не повністю перенавчав модель тексту в зображення з нуля. Натомість він дещо змінює математичні перетворення, які перетворюють текст на зображення. Це дозволяє налаштувати модель для створення нових візуальних концепцій, не вимагаючи великої обчислювальної потужності або перенавчання моделі.
Для методу перфузії потрібно лише 100 кб.
Перфузія досягає цих результатів за допомогою на два-п’ять порядків менше параметрів, ніж конкуруючі методи.
Хоча інші методи можуть вимагати від сотень мегабайт до гігабайт пам’яті на концепцію, для Perfusion потрібно лише 100 КБ, що можна порівняти з невеликим зображенням, текстом або повідомленням WhatsApp.
Це різке скорочення може зробити розгортання високоспеціалізованих художніх моделей AI більш можливим.
За словами співавтора Галя Чечик,
«Infusion не тільки забезпечує більш точну персоналізацію на частці розміру моделі, але також дозволяє використовувати більш складні підказки та включати індивідуально вивчені концепції під час висновку».
Метод може використовувати індивідуально засвоєні поняття «плюшевий ведмедик» і «чайник» для створення творчих образів, таких як «плюшевий ведмедик, що пливе в чайнику».
Джерело: Nvidia Research
Можливість ефективної персоналізації
Унікальна здатність Perfusion персоналізувати моделі AI, використовуючи лише 100 КБ на концепцію, відкриває незліченну кількість потенційних застосувань:
Цей підхід відкриває людям шлях до легкого налаштування моделей тексту в зображення з новими об’єктами, сценами чи стилями, тим самим усуваючи потребу у дорогому перенавчанні. Ефективність оновлення параметрів Perfusion 100 КБ на концепцію дозволяє впроваджувати моделі, налаштовані за допомогою технології, на споживчі пристрої, створюючи зображення на пристрої.
Одним із найпереконливіших аспектів цієї технології є потенціал, який вона пропонує для спільного використання та співпраці навколо моделей AI. Користувачі можуть ділитися своїми персоналізованими концепціями як невеликими додатковими файлами, уникаючи спільного використання нудних контрольних точок моделі.
З точки зору розповсюдження, моделі, адаптовані до конкретних організацій, можуть бути легше поширені або розгорнуті на краю. Оскільки практика створення тексту в зображення стає все більш популярною, здатність досягти такого драматичного зменшення розміру без шкоди для функціональності буде надзвичайно важливою.
Однак варто зазначити, що Perfusion насамперед забезпечує персоналізацію моделі, а не повні генеративні можливості.
Обмеження та випуски
Хоча ця техніка є перспективною, вона має деякі обмеження. Автори зазначають, що ключовий вибір під час навчання іноді може надмірно узагальнити концепцію. Потрібні додаткові дослідження, щоб бездоганно об’єднати кілька персоналізованих ідей в одне зображення.
Автори зазначають, що код Perfusion буде доступний на їхній сторінці проекту, що вказує на намір публічно оприлюднити метод у майбутньому, можливо, в очікуванні експертної оцінки та офіційних публікацій досліджень. Однак, оскільки робота наразі опублікована лише на arXiv, точні деталі публічної доступності залишаються незрозумілими. На цій платформі дослідники можуть завантажувати статті до офіційного рецензування та публікації в журналах/конференціях.
Хоча до коду Perfusion ще немає доступу, запропоновані авторами плани означають, що такі високоефективні персоналізовані системи штучного інтелекту можуть з часом потрапити в руки розробників, промисловості та творців.
З розвитком художніх платформ штучного інтелекту, таких як MidJourney, DALL-E 2 і Stable Diffusion, методи, які забезпечують більший контроль користувача, можуть мати вирішальне значення для розгортання в реальному світі. Завдяки таким покращенням ефективності, як Perfusion, Nvidia, здається, має намір зберегти свою перевагу в середовищі, що швидко розвивається.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Nvidia зменшує метод створення зображень AI до розміру повідомлення WhatsApp
Perfusion, рішення Nvidia для високих вимог до пам’яті для створення зображень штучного інтелекту
Дослідники Nvidia розробили нову техніку генерації зображень штучного інтелекту, яка дозволяє створювати налаштовані моделі тексту в зображення з мінімальними вимогами до пам’яті.
Відповідно до статті, опублікованої на arXiv, запропонований метод під назвою «Перфузія» може додавати нові візуальні концепції до існуючих моделей, використовуючи лише 100 КБ параметрів на концепцію.
Джерело: Nvidia Research
Як описують автори статті, Perfusion працює, «роблячи невеликі оновлення внутрішнього представлення моделі тексту в зображення».
Зокрема, він вносить ретельно прораховані зміни до тієї частини моделі, яка пов’язує текстові описи зі згенерованими візуальними функціями.Застосування невеликих параметричних змін до рівня перехресної уваги дозволяє Perfusion змінювати спосіб перетворення текстового введення на зображення.
Тому Perfusion не повністю перенавчав модель тексту в зображення з нуля. Натомість він дещо змінює математичні перетворення, які перетворюють текст на зображення. Це дозволяє налаштувати модель для створення нових візуальних концепцій, не вимагаючи великої обчислювальної потужності або перенавчання моделі.
Для методу перфузії потрібно лише 100 кб.
Перфузія досягає цих результатів за допомогою на два-п’ять порядків менше параметрів, ніж конкуруючі методи.
Хоча інші методи можуть вимагати від сотень мегабайт до гігабайт пам’яті на концепцію, для Perfusion потрібно лише 100 КБ, що можна порівняти з невеликим зображенням, текстом або повідомленням WhatsApp.
Це різке скорочення може зробити розгортання високоспеціалізованих художніх моделей AI більш можливим.
За словами співавтора Галя Чечик,
«Infusion не тільки забезпечує більш точну персоналізацію на частці розміру моделі, але також дозволяє використовувати більш складні підказки та включати індивідуально вивчені концепції під час висновку».
Метод може використовувати індивідуально засвоєні поняття «плюшевий ведмедик» і «чайник» для створення творчих образів, таких як «плюшевий ведмедик, що пливе в чайнику».
Джерело: Nvidia Research
Можливість ефективної персоналізації
Унікальна здатність Perfusion персоналізувати моделі AI, використовуючи лише 100 КБ на концепцію, відкриває незліченну кількість потенційних застосувань:
Цей підхід відкриває людям шлях до легкого налаштування моделей тексту в зображення з новими об’єктами, сценами чи стилями, тим самим усуваючи потребу у дорогому перенавчанні. Ефективність оновлення параметрів Perfusion 100 КБ на концепцію дозволяє впроваджувати моделі, налаштовані за допомогою технології, на споживчі пристрої, створюючи зображення на пристрої.
Одним із найпереконливіших аспектів цієї технології є потенціал, який вона пропонує для спільного використання та співпраці навколо моделей AI. Користувачі можуть ділитися своїми персоналізованими концепціями як невеликими додатковими файлами, уникаючи спільного використання нудних контрольних точок моделі.
З точки зору розповсюдження, моделі, адаптовані до конкретних організацій, можуть бути легше поширені або розгорнуті на краю. Оскільки практика створення тексту в зображення стає все більш популярною, здатність досягти такого драматичного зменшення розміру без шкоди для функціональності буде надзвичайно важливою.
Однак варто зазначити, що Perfusion насамперед забезпечує персоналізацію моделі, а не повні генеративні можливості.
Обмеження та випуски
Хоча ця техніка є перспективною, вона має деякі обмеження. Автори зазначають, що ключовий вибір під час навчання іноді може надмірно узагальнити концепцію. Потрібні додаткові дослідження, щоб бездоганно об’єднати кілька персоналізованих ідей в одне зображення.
Автори зазначають, що код Perfusion буде доступний на їхній сторінці проекту, що вказує на намір публічно оприлюднити метод у майбутньому, можливо, в очікуванні експертної оцінки та офіційних публікацій досліджень. Однак, оскільки робота наразі опублікована лише на arXiv, точні деталі публічної доступності залишаються незрозумілими. На цій платформі дослідники можуть завантажувати статті до офіційного рецензування та публікації в журналах/конференціях.
Хоча до коду Perfusion ще немає доступу, запропоновані авторами плани означають, що такі високоефективні персоналізовані системи штучного інтелекту можуть з часом потрапити в руки розробників, промисловості та творців.
З розвитком художніх платформ штучного інтелекту, таких як MidJourney, DALL-E 2 і Stable Diffusion, методи, які забезпечують більший контроль користувача, можуть мати вирішальне значення для розгортання в реальному світі. Завдяки таким покращенням ефективності, як Perfusion, Nvidia, здається, має намір зберегти свою перевагу в середовищі, що швидко розвивається.