DeepSeek-OCR сэкономит токены при распознавании документов

Компания DeepSeek анонсировала новую модель для распознавания документов — DeepSeek-OCR. Она распространяется под лицензией MIT и доступна на платформе Hugging Face.

От классических систем оптического распознавания символов (OCR) новинку отличает то, что система не просто извлекает текст со страниц, а сразу восстанавливает структуру документа: заголовки, списки, таблицы, подписи к иллюстрациям. Результат выдаётся в формате Markdown, подходящем для индексации и последующей работы нейросетей.

DeepSeek-OCR практикует «оптическое сжатие контекста», то есть делает своего рода выжимку основного — текста и смысловой структуры, что сокращает итоговый объём данных в среднем в десять-двадцать раз и снижает стоимость обработки (чем меньше токенов, тем дешевле и быстрее работает последующая LLM).

Новая система использует «визуальные токены» — так даже при небольшом бюджете точность распознавания держится на уровне 97-99 %. Если же сканируемая страница слишком сложна, активируется режим Gundam: документ автоматически делится на фрагменты, и трудные области анализируются отдельно, без потери общей скорости. Плюс ко всему, модель от DeepSeek поддерживает привязку распознанных элементов к координатам на странице — это позволяет точно находить таблицы или подписи в общем массиве.

Представленное решение, как пояснили его авторы, выдаёт такое же качество, что и мультимодальные модели вроде Qwen или GOT-OCR 2.0, при гораздо меньшем объёме вычислений.

27 октября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

06.02.2026
ФБР надеется усилить кибербезопасность, выставив «Зимний щит»
06.02.2026
Мессенджер imo занял место заблокированного «Вайбера»
06.02.2026
Банк России сопроводит спорные операции подробностями
06.02.2026
Внедряя ИИ, CISO отстают от «победных реляций»
05.02.2026
Приложение Visit Russia пополнится новым функционалом
05.02.2026
В «Вышке» появился ИБ-департамент
05.02.2026
Присутствие эмодзи в коде PureRAT выявило роль ИИ в создании зловреда
05.02.2026
Газетчики не готовы давать ИИ-вендорам бесплатный «корм» для LLM
05.02.2026
Servicepipe внедрила расширенный фингерпринтинг в Cybert
04.02.2026
CISA подготовило список решений в области постквантовой криптографии

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных