en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

EMNLP

Дата публикации

11.12.2023

Авторы

Антон Разжигаев Арсений Шахматов Анастасия Мальцева Владимир Архипкин Игорь Павлов Ilya Ryabov Ангелина Куц Александр Панченко Андрей Кузнецов Денис Димитров

Поделиться

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion.

Аннотация

Text-to-image generation is a significant do- main in modern computer vision and has achieved substantial improvements through the evolution of generative architectures. Among these, there are diffusion-based models that have demonstrated essential quality enhance- ments. These models are generally split into two categories: pixel-level and latent-level ap- proaches. We present Kandinsky1, a novel ex- ploration of latent diffusion architecture, com- bining the principles of the image prior models with latent diffusion techniques. The image prior model is trained separately to map text embeddings to image embeddings of CLIP. An- other distinct feature of the proposed model is the modified MoVQ implementation, which serves as the image autoencoder component. Overall, the designed model contains 3.3B pa- rameters. We also deployed a user-friendly demo system that supports diverse genera- tive modes such as text-to-image generation, image fusion, text and image fusion, image variations generation, and text-guided inpaint- ing/outpainting. Additionally, we released the source code and checkpoints for the Kandinsky models. Experimental evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking our model as the top open-source per- former in terms of measurable image genera- tion quality.

Читать в источнике

Похожие публикации

SODAOpt: Socio-Demographic and Textual Adaptive Fusion for Optimizing Developer Task Assignment

Карина Романова, Сергей Сеничев, Лина Вельтман, Иван Насонов, Андрей Кузнецов, Илья Макаров

Читать источник

Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

Roman Vashurin, Екатерина Фадеева, Артем Важенцев, Аким Цвигун, Даниил Васильев, Rui Xing, Abdelrahman Boda Sadallah, Людмила Рванова, Сергей Петраков, Александр Панченко, Timothy Baldwin, Preslav Nakov, Максим Панов, Артем Шелманов

Читать источник

SkipCLM: Enchancing Crosslingual Alignment of Decoder Transformer Models via Contrastive Learning and Skip Connection

Никита Сушко, Александр Панченко, Елена Тутубалина

Читать источник

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

Елисей Рыков, Ксения Петрушина, Ксения Титова, Антон Разжигаев, Александр Панченко, Василий Коновалов

Читать источник

How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Сергей Плетенёв, Мария Марьина, Даниил Московский, Василий Коновалов, Павел Браславский, Александр Панченко, Михаил Сальников

Читать источник

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

Антон Разжигаев, Матвей Михальчук, Темурбек Рахматуллаев, Елизавета Гончарова, Полина Дружинина, Иван Оселедец, Андрей Кузнецов

Читать источник

Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models

Артем Важенцев, Людмила Рванова, Иван Лазичный, Александр Панченко, Максим Панов, Timothy Baldwin, Артем Шелманов

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ