Проблемы с детекцией ориентации в OCR сервисе и их решения
Пожаловались, что ocr сервис не детектит ориентацию.
Включил. В апишке был метод, легко.
Сломались превью. Они не были предназначены для повернутых объектов. Ожидаемо. Починил.
Сломались bbox (детект границ смысловых кусков страницы). Крутил с агентом час, что не так. Оказалось, детект ориентации принудительно запускает нормализацию документа, которая включает в себя нелинейные преобразования (растягивание, сжатие), в итоге bbox отдаются уже в этих новых координатах преобразованной страницы.
Так как сжатия нелинейны, то нельзя отдать просто scale-фактор, а нужно переписывать апи, чтобы назад отдавалась нормализованная страничка целиком картинкой, и уже поверх нее рисовались валидные bbox.
- > вы находитесь здесь.
Все это конечно наполовину на проде, где слава богу мало пока кто чего успел купить и активно использовать (но при этом конечно у кого-то отвалилось и он пришел законно предъявлять, что за нах) 😁
Люблю инди-разработку.
Подписывайтесь на Telegram Глеб Кудрявцев про AI кодинг.