RU2145115C1 - Group method for verification of computer codes with respect to respective original versions - Google Patents

Group method for verification of computer codes with respect to respective original versions Download PDF

Info

Publication number
RU2145115C1
RU2145115C1 RU98114579A RU98114579A RU2145115C1 RU 2145115 C1 RU2145115 C1 RU 2145115C1 RU 98114579 A RU98114579 A RU 98114579A RU 98114579 A RU98114579 A RU 98114579A RU 2145115 C1 RU2145115 C1 RU 2145115C1
Authority
RU
Russia
Prior art keywords
computer
vyd
codes
computer codes
verification
Prior art date
Application number
RU98114579A
Other languages
Russian (ru)
Inventor
С.Г. Попов
В.В. Терещенко
Д.Е. Ян
Original Assignee
Закрытое акционерное общество "Аби Программное обеспечение"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Закрытое акционерное общество "Аби Программное обеспечение" filed Critical Закрытое акционерное общество "Аби Программное обеспечение"
Priority to RU98114579A priority Critical patent/RU2145115C1/en
Priority to AU53109/99A priority patent/AU5310999A/en
Priority to PCT/RU1999/000267 priority patent/WO2000008587A2/en
Application granted granted Critical
Publication of RU2145115C1 publication Critical patent/RU2145115C1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Nitrogen And Oxygen Or Sulfur-Condensed Heterocyclic Ring Systems (AREA)

Abstract

FIELD: computer engineering. SUBSTANCE: method involves converting source character information of original document into set of respective computer codes in found and selected document fields and matching computer codes to original. Goal of invention is achieved by detection of character computer codes in order to verify recognition of each character using results of recognition of said character by prior-art methods, comparison of said results and dictionary verification result. Verification is achieved using several graphical images, which are simultaneously displayed by display unit. EFFECT: increased speed and precision of verification. 2 cl

Description

Изобретение относится к области электроники и может быть использовано, например, в качестве группового способа верификации компьютерных кодов с соответствующими им оригиналами. The invention relates to the field of electronics and can be used, for example, as a group method of verification of computer codes with their corresponding originals.

Известен способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и сличение оператором соответствия компьютерных кодов с оригиналом. A known method of verifying computer codes with their corresponding originals, including converting the original symbolic information of the original document into a set of computer codes adequate to it in the found and selected fields of the document and comparing the operator of matching computer codes with the original.

Известен также способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом, - прототип. There is also a method of verifying computer codes with their corresponding originals, including converting the original symbolic information of the original document into a set of computer codes adequate to it in the found and selected fields of the document and matching the computer codes with the original, a prototype.

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе низкие значения достигаемых скорости верификации ее усредненной точности. A disadvantage of the known methods is their relatively low functional and technical characteristics, including low values of the achieved verification speed of its average accuracy.

Решаемой изобретением задачей является совершенствование способов верификации компьютерных кодов с соответствующими им оригиналами с достижением технического результата в виде повышения скорости верификации и ее усредненной точности. Скорость верификации определяется как количество верифицируемых символов в единицу времени. The problem solved by the invention is to improve the verification methods of computer codes with their corresponding originals with the achievement of a technical result in the form of an increase in the verification speed and its average accuracy. Verification speed is defined as the number of verified characters per unit time.

Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений, символов и/или терминов. For convenience and unambiguous understanding, it is advisable to give decipherments and definitions of the symbols, symbols and / or terms used below.

Исходное графическое изображение на материальном носителе - подлежащее вводу в компьютер изображение с целью последующей компьютерной обработки или хранения в машиночитаемом виде. The original graphic image on a tangible medium is the image to be entered into a computer for the purpose of subsequent computer processing or storage in a machine-readable form.

Графическое изображение, введенное в компьютер, - компьютерное представление некоторого фрагмента графической информации. A graphic image entered into a computer is a computer representation of a piece of graphic information.

Компьютерный код символа - компьютерное представление некоторого фрагмента символьной информации. A computer symbol code is a computer representation of a piece of symbol information.

Компьютерные коды символов получают в процессе компьютерного распознавания графического изображения, введенного в компьютер, например, с помощью сканера, или его фрагментов. Computer character codes are obtained in the process of computer recognition of a graphic image entered into a computer, for example, using a scanner, or fragments thereof.

Процесс верификации - производимое человеком и/или заменяющим его устройством, и/или компьютерной программой сличение (определение адекватности) компьютерных кодов символов с графическим изображением, введенным в компьютер. The verification process is a comparison (determination of adequacy) of computer codes of symbols with a graphic image entered into a computer by a person and / or a replacement device and / or computer program.

Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа. Recognition process - the process by which the recognition system processes a graphic image of a symbol entered into a computer, as a result of which the recognition system ascribes the image a computer code to that symbol.

Точность процесса распознавания - усредненный процент правильно распознанных символов по статистически представительному практически релевантному множеству текстов. The accuracy of the recognition process is the average percentage of correctly recognized characters over a statistically representative practically relevant set of texts.

Правильно распознанные символы - символы, компьютерный код которых правильно определен системой распознавания. Correctly recognized characters are characters whose computer code is correctly determined by the recognition system.

Неправильно распознанные символы - символы, компьютерный код которых неправильно определен системой распознавания. Incorrectly recognized characters are characters whose computer code is incorrectly detected by the recognition system.

Выделенные символы - символы, выделенные в процессе фильтрации для последующей верификации. В идеале выделенные символы должны включать все неправильно распознанные символы. Highlighted characters - characters selected during the filtering process for subsequent verification. Ideally, the selected characters should include all incorrectly recognized characters.

Цена ошибки - параметр, адекватный величине убытка, причиненного попаданием неправильно распознанного символа в окончательный результат распознавания. The price of an error is a parameter adequate to the amount of loss caused by the hit of an incorrectly recognized character in the final recognition result.

Обозначения:
Nисх - общее число символов в документе,
Nвыд - число символов, выделенное алгоритмом фильтрации,
Nневыд - число символов, не выделенное алгоритмом фильтрации,
Nпр - число правильно распознанных символов,
Nнепр - общее число неправильно распознанных символов,
Nвыд.пр - число выделенных правильно распознанных символов,
Nвыд.непр. - число выделенных неправильно распознанных символов,
Nневыд.пр. - число невыделенных правильно распознанных символов,
Nневыд.непр - число невыделенных неправильно распознанных символов,
верхний индекс C (как в NC) обозначает число символов, которые получили в процессе распознавания компьютерный код C,
A - точность распознавания данного документа,
A=Nпр/Nисх,
Aср - усредненная точность распознавания данного документа:

Figure 00000001

где N - общее число документов в выборке, a i - номер документа в выборке,
Figure 00000002

где С - числовое значение компьютерного кода распознанного символа (порядковый номер), выбираемое из всего множества допустимых значений без исключений,
NгрC - количество сгруппированных для верификации одинаковых компьютерных кодов,
Nэкр - количество графических изображений выводимых на экран одновременно (из общего количества NгрC).Designations:
N ref is the total number of characters in the document,
N vyd - the number of characters allocated by the filtering algorithm,
N nonexistent is the number of characters not allocated by the filtering algorithm,
N CR - the number of correctly recognized characters,
N un - the total number of incorrectly recognized characters,
N vyd.pr - the number of selected correctly recognized characters,
N ext. - the number of highlighted incorrectly recognized characters,
N nonexp. - the number of unselected correctly recognized characters,
Nevyd .nepr N - number of incorrectly recognized characters unselected,
superscript C (as in N C ) denotes the number of characters that computer code C received in the recognition process,
A - recognition accuracy of this document,
A = N pr / N ref ,
A cf - average accuracy of recognition of this document:
Figure 00000001

where N is the total number of documents in the sample, ai is the number of the document in the sample,
Figure 00000002

where C is the numerical value of the computer code of the recognized character (serial number), selected from the entire set of valid values without exception,
N gr C - the number of identical computer codes grouped for verification,
N scr - the number of graphic images displayed on the screen at the same time (the total number N c C).

В качестве кратких сведений, раскрывающих сущность изобретения, следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного группового способа АБИ (ABBYY) верификации компьютерных кодов с соответствующими им оригиналами, включающего преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом. Отличительные особенности заявленного способа заключаются в том, что в процессе фильтрации выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа различными известными способами, сравнения этих результатов между собой и с результатом словарного контроля и выбирая их из исходной последовательности компьютерных кодов символов общим числом Nисх, в количестве Nвыд = F - aNневыд.непр, где а - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах: 10-12≤ α ≤ 1015, a F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах: 1 ≤F≤1016.As brief information revealing the essence of the invention, it should be noted that the achieved technical result is ensured by the proposed group method ABI (ABBYY) verification of computer codes with their corresponding originals, including the conversion of the original symbolic information of the original document into a set of computer codes adequate to it in the found and selected document fields and alignment of computer codes with the original. Distinctive features of the claimed method are that in the filtering process, computer character codes are distinguished, determining the recognition accuracy of each character based on the recognition results of the image of this character by various known methods, comparing these results with each other and with the result of vocabulary control, and selecting them from the original computer sequence character codes with a total number of N ref , in the amount of N vyd = F - aN non-nd. npn , where a is the experimental coefficient selected depending on the error price and the average accuracy of the recognition system in the range: 10 -12 ≤ α ≤ 10 15 , and F is the experimental parameter selected on the basis of the recognition system accuracy and the number of characters to be recognized in document within: 1 ≤F≤10 16 .

Затем после фильтрации группируют одинаково распознанные компьютерные коды общим числом Nвыд таким образом, что в каждую группу включают NвыдC одинаковых компьютерных кодов символов, где C - числовое значение верифицируемого компьютерного кода, выбираемое из всего множества допустимых значений, выбирая значение NвыдC в пределах: 1≤(NвыдC + Nвыд)/Nвыд ≤2. При этом в каждую группу NвыдC включают правильно распознанные компьютерные коды символов в количестве Nвыд прC и неправильно распознанные компьютерные коды символов в количестве Nвыд непрC, а соотношение между Nвыд прC и Nвыд непрC выбирают в пределах: -0.5≤(Nвыд прC + Nвыд непрC - bNвыдC)/Nвыд прC ≤1.5, где b- экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах: 10-9≤b≤1. Для верификации выбирают количество Nгр сгруппированных одинаковых компьютерных кодов в пределах Nгр= βγN С выд , где γ -экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных и/или вспомогательных и/или информационных кодов выбираемый в пределах 10-5≤ α ≤ 106, β - экспериментальный вероятностный коэффициент уверенности в достоверности распознавания, выбираемый на основании статистической обработки и результатов оценки качества исходных графических изображений на материальном носителе, в пределах 0,01 ≤ β ≤ 1.
Группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке либо в порядке убывания весовой WC значимости группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа и др., исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах: 10-8≤ WC/NвыдC≤1016. Производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят Nэкр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток Твер времени, который по отношению к Nэкр выбирают в экспериментально найденных пределах: -20 ≤ log2(αTверNэкр) ≤ 37, где α - экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0.2c-1≤ α ≤ 10c-1.
При изложении сведений, подтверждающих возможность осуществления изобретения, целесообразно более детально описать предложенный групповой способ АБИ (ABBYY) верификации компьютерных кодов с соответствующими им оригиналами. При описании способа нецелесообразно детально останавливаться на известных из опубликованных данных особенностях выполнения его операций, в частности, преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом.
Then, after filtering, identically recognized computer codes are grouped with a total number of N output so that each group includes N output C of the same computer character codes, where C is the numerical value of the verified computer code, selected from the entire set of valid values, choosing the value of N output C in range: 1≤ (N vyd vyd C + N) / N vyd ≤2. In this case, each group of N vyd C include correctly recognized by the computer codes of characters in an amount of N vyd straight C and incorrectly recognized computer character codes in a quantity N vyd indirect C, and the ratio N vyd straight C and N vyd indirect C is selected between: - 0.5≤ (N vyd straight C + N vyd indirect C - bN vyd C) / N vyd straight C ≤1.5, where b- experimental factor chosen depending on starting of graphic clarity and contrast of the image within the 10 -9 ≤b≤ 1. For verification, select the number N g of grouped identical computer codes within N gr = βγN FROM out , where γ is an experimental coefficient, depending on the number of selected dedicated computer codes and additionally included reference and / or auxiliary and / or information codes, selected within 10 -5 ≤ α ≤ 10 6 , β is the experimental probabilistic coefficient of confidence in recognition reliability, selected on the basis of statistical processing and the results of assessing the quality of the original graphic images on a tangible medium, within 0.01 ≤ β ≤ 1.
Groups of identically recognized computer codes are derived for verification by a specialized device or operator, for example, in random order or in decreasing order of weight W C of the significance of a group of computer codes, which is determined experimentally based on statistical processing of large amounts of information depending on the alphabetical order and / or size groups of computer codes, and / or the degree of importance of a given computer code for the content of a document, etc., based on the practical significance of the reliability of ver identification of computer codes, and choose between: 10 -8 ≤ W C / N output C ≤10 16 . Verification is performed by comparing, for example, the image entered on the computer displayed on the visual information display device with the image of the computer symbol code, for which N screens of different graphic images are simultaneously input into the visual information display device, while providing a verification interval of Ver time, which with respect to N ecr is chosen within the experimentally found limits: -20 ≤ log 2 (αT ver N ecr ) ≤ 37, where α is the experimental coefficient selected depending and from the kinetic characteristics of a device for inputting symbolic information into a computer within 0.2c -1 ≤ α ≤ 10c -1 .
When presenting information confirming the possibility of carrying out the invention, it is advisable to describe in more detail the proposed group method of ABI (ABBYY) verification of computer codes with their corresponding originals. When describing the method, it is impractical to dwell in detail on the specifics of performing its operations known from published data, in particular, converting the original symbolic information of the original document into a set of computer codes adequate to it in the found and selected fields of the document and matching the computer codes with the original.

Детально целесообразно остановиться только на отличительных существенных особенностях осуществления операций предложенного способа, заключающихся в том, что в процессе фильтрации выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа различными известными способами, сравнения этих результатов между собой и с результатом словарного контроля и выбирая их из исходной последовательности компьютерных кодов символов общим числом Nисх, в количестве Nвыд= F-αNневыд.непр,, где a - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах: 1012 ≤ α ≤ 1015, a F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах: 1 ≤ F ≤1016. Обычно а выбирают в диапазоне 1 - 105, a F - в диапазоне 10 ≤ F ≤ 106.In detail, it is advisable to dwell only on the distinctive essential features of the operations of the proposed method, namely, that during the filtering process computer codes of symbols are distinguished, determining the recognition accuracy of each symbol based on the recognition results of the image of this symbol by various known methods, comparing these results with each other and with the result dictionary control and selecting them from the original sequence of computer character codes with a total number N ref , in the number of N output = F-αN is not detected , where a is the experimental coefficient selected depending on the price of the error and the average accuracy of the recognition system in the range: 10 12 ≤ α ≤ 10 15 , a F is the experimental parameter selected depending on the accuracy of the recognition system and the number of characters to be recognized in the document within: 1 ≤ F ≤10 16 . Typically, a is selected in the range of 1 - 10 5 , a F - in the range of 10 ≤ F ≤ 10 6 .

В некоторых случаях, в частности, словарный контроль существенно повышает достоверность распознавания отдельных символов, так при этом даже полная невозможность распознания некоторых символов позволяет определить их значение исходя из смыслового содержания слова и месторасположения нераспознанных символов в слове. Если в результате выделения в соответствии с приведенными аналитическими соотношениями необходимых количеств компьютерных кодов получают дробные, отрицательные значения и какие-либо другие значения, некорректные исходя из условий возможности их дальнейшего использования, то их исключают из рассмотрения и/или автоматически удаляют. In some cases, in particular, vocabulary control significantly increases the accuracy of recognition of individual characters, while even the complete impossibility of recognizing certain characters allows us to determine their meaning based on the semantic content of the word and the location of unrecognized characters in the word. If, as a result of the allocation, in accordance with the given analytical ratios, of the necessary quantities of computer codes, fractional, negative values and any other values that are incorrect based on the conditions for their possible further use are obtained, they are excluded from consideration and / or automatically deleted.

Затем группируют после фильтрации одинаково распознанные компьютерные коды общим числом Nвыд таким образом, что в каждую группу включают NвыдC одинаковых компьютерных кодов символов, где C - числовое значение верифицируемого компьютерного кода из всего множества допустимых значений, выбирая значение NвыдC в пределах: 1 ≤(NвыдC + Nвыд)/Nвыд ≤ 2. Определение числового значения C может быть произвольным или в результате, например, последовательно выбора из множества его допустимых значений. При этом в каждую группу NвыдC включают правильно распознанные компьютерные коды символов в количестве Nвыд прC и неправильно распознанные компьютерные коды символов в количестве Nвыд непрC, а соотношение между Nвыд прC и Nвыд непрC выбирают в пределах: -0.5≤ (Nвыд прC + Nвыд непрC - bNвыдC)/Nвыд прC≤1.5, где b - экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах: 10-9≤b≤1. Для верификации выбирают количество Nгр сгруппированных одинаковых компьютерных кодов в пределах: Nгр= βγN C выд , где γ - экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных и/или вспомогательных и/или информационных кодов выбираемый в пределах 10-5≤ γ ≤ 106, β - экспериментальный вероятностный коэффициент уверенности в достоверности распознавания, выбираемый на основании статистической обработки и результатов оценки качества исходных графических изображений на материальном носителе в пределах 0,01 ≤ β ≤ 1. Качество исходных графических изображений определяется, в частности, тем, что предъявляют для распознавания, например, изготовленное на ксерокопировальном аппарате изображение, факсограмму, машинописный или рукописный текст.Then, after filtering, identically recognized computer codes are grouped with a total number of N output so that each group includes N output C of the same computer character codes, where C is the numerical value of the verified computer code from the entire set of valid values, choosing the value of N output C within: 1 ≤ (N output C + N output ) / N output ≤ 2. The determination of the numerical value of C can be arbitrary or as a result of, for example, sequentially choosing from the set of its valid values. In this case, each group of N vyd C include correctly recognized by the computer codes of characters in an amount of N vyd straight C and incorrectly recognized computer character codes in a quantity N vyd indirect C, and the ratio N vyd straight C and N vyd indirect C is selected between: - 0.5≤ (N vyd straight C + N vyd indirect C - bN vyd C) / N vyd straight C ≤1.5, where b - experimental factor chosen depending on the clarity and contrast of the original picture in the range 10 -9 ≤b≤ 1. For verification, select the number of N gr grouped by the same computer codes within: N gr = βγN C out , where γ is the experimental coefficient, depending on the number of allocated computer codes to be grouped and additional reference and / or auxiliary and / or information codes included, chosen within 10 -5 ≤ γ ≤ 10 6 , β is the experimental probabilistic coefficient of confidence in the recognition accuracy, selected on the basis of statistical processing and the results of assessing the quality of the original graphic images on a tangible medium within 0.01 ≤ β ≤ 1. The quality of the original graphic images is determined In particular, they present for recognition, for example, an image made on a photocopy machine, a facsimogram, typewritten or handwritten text.

Группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке либо в порядке убывания весовой WC значимости группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа и др., исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах: 10-8≤WC/NвыдC ≤1016. Производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят Nэкр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток Твер времени, который по отношению к Nэкр выбирают в экспериментально найденных пределах: -20 ≤ log2(αTверNэкр)≤ 37, где α - экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0.2c-1≤ α ≤ 10-1. Как следует из соотношения, размерность коэффициента α равна величине, обратной секунде.Groups of identically recognized computer codes are derived for verification by a specialized device or operator, for example, in random order or in decreasing order of weight W C of the significance of a group of computer codes, which is determined experimentally based on statistical processing of large amounts of information depending on the alphabetical order and / or size groups of computer codes, and / or the degree of importance of a given computer code for the content of a document, etc., based on the practical significance of the reliability of ver identification of computer codes, and choose between: 10 -8 ≤W C / N output C ≤10 16 . Verification is performed by comparing, for example, the image entered on the computer displayed on the visual information display device with the image of the computer symbol code, for which N screens of different graphic images are simultaneously input into the visual information display device, while providing a verification interval of Ver time, which in relation to the N scr selected experimentally found within: -20 ≤ log 2 (αT ver scr N) ≤ 37, wherein α - experimental factor chosen depending on the kinetic characteristics of the device the character information input in computer within 0.2c -1 ≤ α ≤ 10 -1. As follows from the relation, the dimension of the coefficient α is equal to the reciprocal of the second.

Достигаемый технический результат, как показали данные экспериментов, может быть реализован только взаимосвязанной совокупностью всех существенных признаков заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их неочевидностью - о его изобретательском уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие критерию "промышленная применимость" предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения заявленных пределов были получены на основе статистической обработки результатов экспериментальных исследований, анализа и обобщения их и известных из опубликованных источников данных, а также с использованием изобретательской интуиции, исходя из условия достижения указанного технического результата. The achieved technical result, as shown by the data of experiments, can be realized only by an interconnected set of all the essential features of the claimed object, reflected in the claims. The differences indicated in it give reason to conclude that the technical solution is new, and the totality of the claimed claims in connection with their non-obviousness is about its inventive step, which is also proved by their detailed description above. Compliance with the criterion of "industrial applicability" of the proposed method is proved both by its implementation and by the absence in the claimed claims of any features that are practically not practicable on an industrial scale. The lower and upper values of the declared limits were obtained on the basis of statistical processing of the results of experimental studies, analysis and generalization of them and known from published data sources, as well as using inventive intuition, based on the conditions for achieving the specified technical result.

Кроме указанного выше технического результата практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами. In addition to the above technical result, the practical implementation of the claimed object allows you to significantly expand the possibilities of its use in relation, for example, to various documents filled with handwritten characters.

Claims (1)

1. Групповой способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом, отличающийся тем, что выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа известными способами, сравнения этих результатов между собой и с результатом словарного контроля и, выбирая их из исходной последовательности компьютерных кодов общим числом Nисх, в количестве Nвыд = F - aNневыд.непр, где a - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах 10-12 ≤ a ≤ 1015, F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах 1 ≤ F ≤ 1016, Nневыд.непр - число невыделенных неправильно распознанных символов, группируют одинаково распознанные компьютерные коды общим числом Nвыд таким образом, что в каждую группу включают NвыдC одинаковых компьютерных кодов, где C - числовое значение верифицируемого компьютерного кода из всего множества допустимых значений, выбирая значение NвыдC в пределах 1 ≤ (NвыдC + Nвыд)/Nвыд ≤ 2, причем в каждую группу NвыдC включают правильно распознанные компьютерные коды символов в количестве Nвыд.прC и неправильно распознанные компьютерные коды в количестве Nвыд.непрC, а соотношение между Nвыд.прC и Nвыд.непрC выбирают в следующих пределах: 0,5 ≤ (Nвыд.прC + Nвыд.непрC - bNвыд)/Nвыд.прC ≤ 1,5, где b - экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах 10-9 ≤ b ≤ 1, выбирая количество Nгр сгруппированных для верификации одинаковых компьютерных кодов в пределах Nгр = βγN C выд , где γ - экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных, и/или вспомогательных, и/или информационных кодов, выбираемый в пределах 10-5 ≤ γ ≤ 106, β - экспериментальный вероятностный коэффициент уверенности в достоверности распознавания, выбираемый на основании статистической обработки и результатов оценки качества исходных графических изображений на материальном носителе, в пределах 0,01 ≤ β ≤ 1, группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке, производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят Nэкр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток Tвер времени, который по отношению к Nэкр выбирают в экспериментально найденных пределах: -20 ≤ log2(αTверNэкр) ≤ 37, где α - экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0,2c-1 ≤ α ≤ 10c-1.
2. Способ по п.1, отличающийся тем, что группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором в порядке убывания весовой значимости WС группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка, и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа, исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах 10-8 ≤ WС/NвыдC ≤ 1016.
1. A group method for verifying computer codes with their originals, including converting the original symbolic information of the original document into a set of computer codes adequate to it in the found and selected fields of the document and matching the computer codes with the original, characterized in that the computer codes are distinguished by defining recognition accuracy of each symbol based on the results of image recognition of this symbol by known methods, comparing these results s with each other and with the result of vocabulary control, and selecting from the original sequence of computer codes a total number N ref, in an amount vyd N = F - aN nevyd .nepr where a - experimental factor chosen depending on the price of accuracy errors and averaged system recognition within 10 -12 ≤ a ≤ 10 15 , F is an experimental parameter selected depending on the accuracy of the recognition system and the number of characters to be recognized in the document within 1 ≤ F ≤ 10 16 , N is not valid. uncomprehended is the number of undetected incorrectly recognized characters, groups of identically recognized computer codes are grouped with a total number of N output so that each group includes N output C identical computer codes, where C is the numerical value of the verified computer code from the entire set of valid values, choosing the value of N output C in the range 1 ≤ (C + N vyd vyd N) / N ≤ vyd 2, wherein in each group of N vyd C include computer correctly recognized character codes in an amount of C and N vyd.pr incorrectly recognized computer codes in quantitative e N vyd.nepr C, and the ratio N between C and N vyd.pr vyd.nepr C is selected in the following ranges: 0.5 ≤ (C + N vyd.pr N vyd indirect C - bN vyd.) / N vyd. pr C ≤ 1.5, where b is the experimental coefficient selected depending on the clarity and contrast of the original graphic image within 10 -9 ≤ b ≤ 1, choosing the number N gr grouped for verification of the same computer codes within N gr = βγN C out , where γ is the experimental coefficient, depending on the number of grouped selected computer codes and additionally included reference, and / or auxiliary, and / or information codes, selected within 10 -5 ≤ γ ≤ 10 6 , β is the experimental probabilistic coefficient of confidence in recognition confidence, selected on the basis of statistical processing and the results of assessing the quality of the original graphic images on a tangible medium, within 0.01 ≤ β ≤ 1, of a group of identically recognized computer codes Displayed for their verification specialized device or operator, e.g., in random order, producing verifying, collating, for example, shown on the display of visual information image input to the computer, with the image of the computer character code by simultaneously on the display device a visual information introduced N screen of different graphic images, while providing for verification of one image the interval T ver time, which in relation to N screen is chosen experimentally on found limits: -20 ≤ log 2 (αT ver N eqr ) ≤ 37, where α is the experimental coefficient selected depending on the kinetic characteristics of the device for inputting symbolic information into the computer within 0.2c -1 ≤ α ≤ 10c -1 .
2. The method according to claim 1, characterized in that the groups of identically recognized computer codes are output for verification by a specialized device or operator in descending order of the weight value W C of the group of computer codes, which is determined experimentally based on the statistical processing of large amounts of information depending on the alphabetical the order and / or size of the group of computer codes, and / or the importance of this computer code for the content of the document, based on the practical significance of the reliability of the ver katsii computer codes, and is selected in the range of 10 -8 ≤ W C / N vyd C10, 16th.
RU98114579A 1998-08-07 1998-08-10 Group method for verification of computer codes with respect to respective original versions RU2145115C1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU98114579A RU2145115C1 (en) 1998-08-10 1998-08-10 Group method for verification of computer codes with respect to respective original versions
AU53109/99A AU5310999A (en) 1998-08-07 1999-08-02 Group method abbyy for checking computer codes relative to their corresponding originals
PCT/RU1999/000267 WO2000008587A2 (en) 1998-08-07 1999-08-02 Group method abbyy for checking computer codes relative to their corresponding originals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU98114579A RU2145115C1 (en) 1998-08-10 1998-08-10 Group method for verification of computer codes with respect to respective original versions

Publications (1)

Publication Number Publication Date
RU2145115C1 true RU2145115C1 (en) 2000-01-27

Family

ID=20209062

Family Applications (1)

Application Number Title Priority Date Filing Date
RU98114579A RU2145115C1 (en) 1998-08-07 1998-08-10 Group method for verification of computer codes with respect to respective original versions

Country Status (3)

Country Link
AU (1) AU5310999A (en)
RU (1) RU2145115C1 (en)
WO (1) WO2000008587A2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544257A (en) * 1992-01-08 1996-08-06 International Business Machines Corporation Continuous parameter hidden Markov model approach to automatic handwriting recognition
RU2106010C1 (en) * 1995-05-23 1998-02-27 Акционерное общество закрытого типа "Анализ, консультации и маркетинг" Method for analysis of securities
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FineReader Версия 3.0. Руководство пользователя. Bit Software, Inc. - Казань: Казанский производственный комбинат программных средств, 1997. *

Also Published As

Publication number Publication date
AU5310999A (en) 2000-02-28
WO2000008587A2 (en) 2000-02-17
WO2000008587A3 (en) 2000-05-18

Similar Documents

Publication Publication Date Title
US5933531A (en) Verification and correction method and system for optical character recognition
KR100297482B1 (en) Method and apparatus for character recognition of hand-written input
EP0686291B1 (en) Combined dictionary based and likely character string handwriting recognition
CN110705302B (en) Named entity identification method, electronic equipment and computer storage medium
JP4233612B2 (en) Reducing errors in handwriting recognizers that use decision trees
EA001689B1 (en) Automatic language identification system for multilingual optical character recognition
JPH0684006A (en) Method of online handwritten character recognition
US6760490B1 (en) Efficient checking of key-in data entry
CN111597309A (en) Similar enterprise recommendation method and device, electronic equipment and medium
US5940532A (en) Apparatus for and method of recognizing hand-written characters
US3925761A (en) Binary reference matrix for a character recognition machine
CN111630521A (en) Image processing method and image processing system
EP2138959B1 (en) Word recognizing method and word recognizing program
JP5634972B2 (en) Method, computer program product and system for text segmentation
RU2597163C2 (en) Comparing documents using reliable source
RU2145115C1 (en) Group method for verification of computer codes with respect to respective original versions
CN114065762A (en) Text information processing method, device, medium and equipment
JP3313272B2 (en) Address reading method and identification function weight vector generation method
WO2021154871A1 (en) Systems and methods for handwriting recognition
KR970007279B1 (en) Hand-written character recognition apparatus
CN113837129B (en) Method, device, equipment and storage medium for identifying wrongly written characters of handwritten signature
CN111090989A (en) Prompting method based on character recognition and electronic equipment
JP3469375B2 (en) Method for determining certainty of recognition result and character recognition device
JPH0830734A (en) Character string recognition device
JPH10134141A (en) Device and method for document collation

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20070811

NF4A Reinstatement of patent

Effective date: 20081010

HE4A Change of address of a patent owner
PC41 Official registration of the transfer of exclusive right

Effective date: 20141031

QB4A Licence on use of patent

Free format text: LICENCE

Effective date: 20151118

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710