Обзор Infinity Parser 2: новая SOTA в OCR моделях

Я знаю, вы обожаете OCR модельки прямо как я 😁

А выходят они не реже, чем LLM, так-то. Фиг уследишь. Поэтому что? Правильно. Новая SOTA каждый день.

На этот раз Infinity Parser 2

Хорошо — полный оупенсорс, можно юзать для коммерции.

Плохо — модель жирная, аж 35B, и чатик говорит, что жрет две видеокарты. Хз насколько правда, попробую может запустить на макбуке, но не особо верю в чудеса.

В целом, из OCR топов почти все это VL модели, то есть архитектура LLM спецом приспособленная для зрения. Скорее всего они в итоге победят "аналитические" модели старой формации, а потом и вовсе сольются в едином экстазе со своими старшими ЛЛМ-комбайнами.

Но важно: для OCR важная скорость, посему нужны мелкие дистилляты. Мой сервис сейчас имеет в ядре Paddle на 0.9B параметров, и это конечно совсем не то же самое что гонять жирные квены.

Все баги вчерашнего дня, кстати, пофиксил. Работает четенько.

Как попробую этот инфинити в деле— отпишусь.

Подписывайтесь на Telegram Глеб Кудрявцев про AI кодинг.

Начать дискуссию