Проблемы с детекцией ориентации в OCR сервисе и их решения

Пожаловались, что ocr сервис не детектит ориентацию.

Включил. В апишке был метод, легко.

Сломались превью. Они не были предназначены для повернутых объектов. Ожидаемо. Починил.

Сломались bbox (детект границ смысловых кусков страницы). Крутил с агентом час, что не так. Оказалось, детект ориентации принудительно запускает нормализацию документа, которая включает в себя нелинейные преобразования (растягивание, сжатие), в итоге bbox отдаются уже в этих новых координатах преобразованной страницы.

Так как сжатия нелинейны, то нельзя отдать просто scale-фактор, а нужно переписывать апи, чтобы назад отдавалась нормализованная страничка целиком картинкой, и уже поверх нее рисовались валидные bbox.

> вы находитесь здесь.

Все это конечно наполовину на проде, где слава богу мало пока кто чего успел купить и активно использовать (но при этом конечно у кого-то отвалилось и он пришел законно предъявлять, что за нах) 😁

Люблю инди-разработку.

Подписывайтесь на Telegram Глеб Кудрявцев про AI кодинг.