Nvidia thu nhỏ phương pháp tạo hình ảnh AI thành kích thước của tin nhắn WhatsApp

Perfusion, giải pháp của Nvidia cho nhu cầu lưu trữ cao khi tạo hình ảnh AI

Các nhà nghiên cứu của Nvidia đã phát triển một kỹ thuật tạo hình ảnh AI mới cho phép các mô hình chuyển văn bản thành hình ảnh được tùy chỉnh cao với yêu cầu lưu trữ tối thiểu.

Theo một bài báo được xuất bản trên arXiv, phương pháp được đề xuất, được gọi là "Perfusion", có thể thêm các khái niệm trực quan mới vào các mô hình hiện có, chỉ sử dụng 100KB tham số cho mỗi khái niệm.

Nguồn: Nghiên cứu của Nvidia

Như các tác giả của bài báo mô tả, Perfusion hoạt động bằng cách "thực hiện các cập nhật nhỏ cho phần trình bày bên trong của mô hình chuyển văn bản thành hình ảnh."

Cụ thể hơn, nó thực hiện các thay đổi được tính toán cẩn thận đối với phần mô hình kết nối các mô tả văn bản với các tính năng hình ảnh được tạo.Áp dụng các chỉnh sửa tham số nhỏ cho lớp chú ý chéo cho phép Perfusion sửa đổi cách chuyển đổi đầu vào văn bản thành hình ảnh. .

Vì vậy, Perfusion đã không đào tạo lại hoàn toàn mô hình chuyển văn bản thành hình ảnh từ đầu. Thay vào đó, nó điều chỉnh một chút các phép biến đổi toán học để biến văn bản thành hình ảnh. Điều này cho phép nó tùy chỉnh mô hình để tạo ra các khái niệm trực quan mới mà không cần nhiều sức mạnh tính toán hoặc đào tạo lại mô hình.

Phương pháp tưới máu chỉ cần 100kb.

Tưới máu đạt được những kết quả này với các thông số ít hơn từ hai đến năm bậc so với các kỹ thuật cạnh tranh.

Trong khi các phương pháp khác có thể yêu cầu dung lượng lưu trữ từ hàng trăm megabyte đến gigabyte cho mỗi khái niệm, thì Perfusion chỉ yêu cầu 100KB, tương đương với một hình ảnh nhỏ, văn bản hoặc tin nhắn WhatsApp.

Việc giảm mạnh này có thể làm cho việc triển khai các mô hình nghệ thuật AI tùy biến cao trở nên khả thi hơn.

Theo đồng tác giả Gal Chechik,

"Truyền dịch không chỉ cho phép cá nhân hóa chính xác hơn ở một phần kích thước mô hình mà còn cho phép sử dụng các tín hiệu phức tạp hơn và kết hợp các khái niệm đã học riêng lẻ tại thời điểm suy luận."

Phương pháp này có thể sử dụng các khái niệm đã học riêng lẻ về "gấu bông" và "ấm trà" để tạo ra những hình ảnh sáng tạo, chẳng hạn như "gấu bông đang chèo thuyền trong ấm trà".

Nguồn: Nghiên cứu của Nvidia

Khả năng cá nhân hóa hiệu quả

Khả năng độc đáo của Perfusion trong việc cá nhân hóa các mô hình AI chỉ sử dụng 100KB cho mỗi khái niệm sẽ mở ra vô số ứng dụng tiềm năng:

Cách tiếp cận này mở đường cho các cá nhân dễ dàng tùy chỉnh các mô hình chuyển văn bản thành hình ảnh với các đối tượng, cảnh hoặc phong cách mới, do đó loại bỏ nhu cầu đào tạo lại tốn kém. Hiệu quả cập nhật thông số 100KB trên mỗi khái niệm của Perfusion cho phép các mô hình được tùy chỉnh bằng cách sử dụng công nghệ được triển khai trên các thiết bị tiêu dùng, cho phép tạo hình ảnh trên thiết bị.

Một trong những khía cạnh hấp dẫn nhất của công nghệ này là tiềm năng mà nó mang lại cho việc chia sẻ và cộng tác xung quanh các mô hình AI. Người dùng có thể chia sẻ các khái niệm được cá nhân hóa của họ dưới dạng các tệp bổ sung nhỏ, tránh chia sẻ các điểm kiểm tra mô hình tẻ nhạt.

Về mặt phân phối, các mô hình phù hợp với các tổ chức cụ thể có thể được phổ biến hoặc triển khai dễ dàng hơn ở vùng biên. Khi thực tiễn tạo văn bản thành hình ảnh tiếp tục trở nên phổ biến hơn, khả năng đạt được mức giảm kích thước đáng kể như vậy mà không phải hy sinh chức năng sẽ rất quan trọng.

Tuy nhiên, điều đáng chú ý là Perfusion chủ yếu cung cấp khả năng cá nhân hóa mô hình thay vì bản thân các khả năng tổng quát đầy đủ.

Hạn chế và phát hành

Trong khi hứa hẹn, kỹ thuật này có một số hạn chế. Các tác giả chỉ ra rằng các lựa chọn chính trong quá trình đào tạo đôi khi có thể khái quát hóa quá mức một khái niệm. Vẫn cần nhiều nghiên cứu hơn để kết hợp liền mạch nhiều ý tưởng được cá nhân hóa thành một hình ảnh duy nhất.

Các tác giả lưu ý rằng mã của Perfusion sẽ có sẵn trên trang dự án của họ, cho thấy ý định phát hành công khai phương pháp này trong tương lai, có thể đang chờ đánh giá ngang hàng và các ấn phẩm nghiên cứu chính thức. Tuy nhiên, vì tác phẩm hiện chỉ được xuất bản trên arXiv, nên các chi tiết chính xác về tính khả dụng công khai vẫn chưa rõ ràng. Trên nền tảng này, các nhà nghiên cứu có thể tải lên các bài báo trước khi bình duyệt chính thức và xuất bản trên các tạp chí/hội nghị.

Mặc dù mã của Perfusion vẫn chưa được truy cập, nhưng các kế hoạch đề xuất của các tác giả có nghĩa là các hệ thống AI được cá nhân hóa, hiệu quả cao như vậy, tất nhiên, có thể tìm đường đến tay các nhà phát triển, ngành công nghiệp và người sáng tạo.

Với sự phát triển của các nền tảng nghệ thuật AI như MidJourney, DALL-E 2 và Stable Diffusion, các kỹ thuật cho phép người dùng kiểm soát tốt hơn có thể rất quan trọng đối với việc triển khai trong thế giới thực. Với những cải tiến hiệu quả rõ ràng như Perfusion, Nvidia dường như quyết tâm duy trì lợi thế của mình trong một môi trường phát triển nhanh chóng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)