Обзор Infinity Parser 2: новая SOTA в OCR моделях
Я знаю, вы обожаете OCR модельки прямо как я 😁
А выходят они не реже, чем LLM, так-то. Фиг уследишь. Поэтому что? Правильно. Новая SOTA каждый день.
На этот раз Infinity Parser 2
Хорошо — полный оупенсорс, можно юзать для коммерции.
Плохо — модель жирная, аж 35B, и чатик говорит, что жрет две видеокарты. Хз насколько правда, попробую может запустить на макбуке, но не особо верю в чудеса.
В целом, из OCR топов почти все это VL модели, то есть архитектура LLM спецом приспособленная для зрения. Скорее всего они в итоге победят "аналитические" модели старой формации, а потом и вовсе сольются в едином экстазе со своими старшими ЛЛМ-комбайнами.
Но важно: для OCR важная скорость, посему нужны мелкие дистилляты. Мой сервис сейчас имеет в ядре Paddle на 0.9B параметров, и это конечно совсем не то же самое что гонять жирные квены.
Все баги вчерашнего дня, кстати, пофиксил. Работает четенько.
Как попробую этот инфинити в деле— отпишусь.
Подписывайтесь на Telegram Глеб Кудрявцев про AI кодинг.