Когда меню не читается, а пальцев снова шесть
Почему генеративный ИИ до сих пор путается в самом базовом?
Недавно мы с семьёй готовили званый обед. Решили подойти с фантазией - сделать семейное меню на русском и греческом языках в едином стиле, красиво оформить в PNG.
Попросили нейросеть (Sora/ChatGPT с DALL·E) визуализировать меню.
Казалось бы - простая задача: фон, еда, пара строк текста.
Почему так происходит?
Большинство генеративных моделей, включая Sora и DALL·E, не «понимают» текст как кодировку или символ, а видят его как визуальную текстуру.
Они не вставляют текст, а «рисуют его на глаз». Поэтому:
- даже если вы просите чёткий текст, получится «примерно то»
- кириллица, греческий, грузинский, иврит: всё это повышает шанс ошибок
- точные шрифты, стили и отступы модель «угадывает», но не знает
Шестипалость - ироничный симптом
Раньше AI-сети постоянно «рисовали» 6+ пальцев, пока не добавили отдельную тренировку на анатомию.
Теперь с текстом ситуация та же.
Модель видит надпись не как слова, а как узор. И ошибается точно, как когда-то в пальцах.
📌 Что делать?
- Всегда перепроверяйте кириллические и многоязычные надписи в AI-картинках
- Не стесняйтесь добавлять текст вручную после генерации - это нормально
- И не верьте сразу в «почти читаемую» букву - она может означать совсем не то, что вы думаете
А вы сталкивались с тем, как генеративный ИИ "творчески" искажает простой текст? Или у вас есть своя коллекция шестипалых шедевров? Делитесь, соберём галерею ошибок!