@Blackjazz, автор программы ответил, что все подобные ошибки считывания – чистейший рандом. Движок ocr может в 1 случае из 1000 (проверено на практике) распознать неверно символ, а может и верно в другой раз, а может и вообще всё предложение запороть, для этого есть фильтрация коррекции, с помощью которой исправляется большое количество ошибок. Но, опять же, это всё рандом и в большинстве случаев зависит от шрифта распознаваемого текста. Например, для чистки перевода с английского я создал конфиг, где вообще вырезаны все английские буквы, цифры и ещё миллион другого мусора. Эти конфиги будут оптимизированы и выложены позже
@Blackjazz, автор программы ответил, что все подобные ошибки считывания – чистейший рандом. Движок ocr может в 1 случае из 1000 (проверено на практике) распознать неверно символ, а может и верно в другой раз, а может и вообще всё предложение запороть, для этого есть фильтрация коррекции, с помощью которой исправляется большое количество ошибок.Но, опять же, это всё рандом и в большинстве случаев зависит от шрифта распознаваемого текста.
Например, для чистки перевода с английского я создал конфиг, где вообще вырезаны все английские буквы, цифры и ещё миллион другого мусора. Эти конфиги будут оптимизированы и выложены позже
@Blackjazz