MKdrive
July 2

Когда меню не читается, а пальцев снова шесть

Почему генеративный ИИ до сих пор путается в самом базовом?

Недавно мы с семьёй готовили званый обед. Решили подойти с фантазией - сделать семейное меню на русском и греческом языках в едином стиле, красиво оформить в PNG.

Попросили нейросеть (Sora/ChatGPT с DALL·E) визуализировать меню.

Казалось бы - простая задача: фон, еда, пара строк текста.

Но результат… удивил:

  • Буквы «тают»,
  • Кириллица превращается в глифы,
  • Греческий текст как будто собран из обломков латиницы.

Почему так происходит?

Большинство генеративных моделей, включая Sora и DALL·E, не «понимают» текст как кодировку или символ, а видят его как визуальную текстуру.
Они не вставляют текст, а «рисуют его на глаз». Поэтому:

  • даже если вы просите чёткий текст, получится «примерно то»
  • кириллица, греческий, грузинский, иврит: всё это повышает шанс ошибок
  • точные шрифты, стили и отступы модель «угадывает», но не знает

Шестипалость - ироничный симптом

Раньше AI-сети постоянно «рисовали» 6+ пальцев, пока не добавили отдельную тренировку на анатомию.

Теперь с текстом ситуация та же.

Модель видит надпись не как слова, а как узор. И ошибается точно, как когда-то в пальцах.


📌 Что делать?

  • Всегда перепроверяйте кириллические и многоязычные надписи в AI-картинках
  • Не стесняйтесь добавлять текст вручную после генерации - это нормально
  • И не верьте сразу в «почти читаемую» букву - она может означать совсем не то, что вы думаете

А вы сталкивались с тем, как генеративный ИИ "творчески" искажает простой текст? Или у вас есть своя коллекция шестипалых шедевров? Делитесь, соберём галерею ошибок!