Изделүүдө жана OCR

Кутмандуу күнүң менен.

Кыязы, ар бирибиз электрондук түргө кагаз документтерди айландыруу керек болуп турган кыйынчылыктарга туш болгон. Өзгөчө, ал документтер менен иштөөгө үйрөнүүгө көп адамдар үчүн эмне үчүн зарыл болгон электрондук сөздүктөр ж.б. аркылуу тексттерди которуу

Бул макалада мен жүрүшүндө кээ бир негиздерин бөлүшкүсү келет. Жалпысынан алганда, сканер жана OCR - иштеринин көбү кол менен эмне болушу керек эле, бир топ убакытты талап. Биз кантип жана эмне үчүн бул кадамдарды түшүнүүгө аракет кылам.

Жок, баары бир бир нерсе түшүнгөн. сканерин (сканнер боюнча prigonyat бардык барактар ​​менен) кийин сиз сүрөт түзүлүшү BMP болот, JPG, PNG, GIF (башка түрү болушу мүмкүн). Ошондуктан Сүрөттөгү текстти алуу - бул жол-жобосу таануу деп аталат. Ошол үчүн, төмөндө көрсөтүлгөн болот.

ыраазы

  • 1. арытып, жана таануу үчүн эмне керек?
  • 2. Scan Орнотуулар Text
  • 3. OCR Документти көрүү
    • 3.1 текст
    • 3.2 Images
    • 3.3 Tables
    • 3.4 ашыкча элементтер
  • 4. таануу PDF / DJVU билэ
  • 5. Error жыйынтыгын текшерүү жана үнөмдөө

1. арытып, жана таануу үчүн эмне керек?

1) сканер

текст түрүндөгү басылма документтерди айландыруу үчүн, биринчиден, сканер, демек, "эне" программасын жана аны менен кошо келген айдоочу керек. Алардын жардамы менен бир документти арытып, жана андан ары кайра иштетүү үчүн, ал аны сактап калат.

Сиз башка аналогияларды кантип колдонсок болот, бирок аягына чейин сканнер менен келип, программалык камсыз кылуу, адатта, тезирээк жана өзгөчөлүктөргө ээ болот.

Сиз сканер бар-жогуна жараша - ылдамдыгы бир кыйла өзгөрүшү мүмкүн. 10 үчүн пленка менен сүрөттү аласыз сканерлер бар сек., 30 секунддун ичинде калат жок. Сиз 200-300 барактарынын бир китепти карап, анда - мен канча убакыт убакыт айырмасы болот эсептөө мүмкүн эмес деп ойлойм?

2) таануу программасы

Бул макалада мен сага эч кандай гана болбосун документтерди кароого, сканер жана таануу үчүн мыкты программаларынын биринде ишин көрсөтөт - ABBYY FineReader. анткени акысыз аналогу Cunei түрү - акы төлөнүүчү программасы, андан кийин дароо шилтеме жана башка берет. Бирок, FineReader бардык жагынан утуп, анткени, аларды салыштырып болмок эмес, ал дагы аны аракет сунуш кылынат.

ABBYY FineReader 11

Расмий Интернет сайты: //www.abbyy.ru/

анын кандай мыкты программалардын бири. Бул сүрөттөгү текстти таануу үчүн иштелип чыккан. Көптөгөн камтылган өзгөчөлүктөрү жана иштейт. тамга бир тутам талдай албайт, ал тургай, кол котормолорун колдойт (жеке, бул, сиз мыкты өнөрүнүн жок, башкача каралбаса, ошондой эле, жазылган нускасын моюнга албайт деп аракет кылган жок да). аны менен иштөө жөнүндө көбүрөөк маалымат алуу үчүн төмөндөгү талкууланат. Бул жерде макаланын белгилешет программа нускасы тууралуу айтып берет 11.

Адатта, ABBYY FineReader ар кандай котормолорунда бири-биринен көп деле өзгөргөн жок. Сиз дагы эле кыла алат. негизги айырмачылыктар чакырык бар, программасы жана анын мүмкүнчүлүктөрү ылдамдыгы. Мисалы, PDF жана DjVu ачуудан баш тартты мурда туру ...

3) сканер документтерди

Ооба, бул жерде ошондой эле, мен айрым рубрикаларды документтерди чечишкен. Көпчүлүк учурларда, ар кандай китептерди арытып, документтер, макалалар, журналдар, жана башкалар. Бул болсо, китептер жана суроо-талап бар экен адабият. Мен эмне болом? жеке тажрыйбасынан Мен сойлоп келет көп деп эмне үчүн айта алабыз - тармакта бар эле болот! бир китеп буга чейин тармагында скандоодон таап жатканда, убакыт өзү канча жолу куткарат. Мен жөн гана документ текстти көчүрүү жана аны менен мындан ары да керек болчу.

акыл Бул жөнөкөй кагаздын From - бир нерсенин алдында текшерүү бирөө арытып, жана сиз убакыт коротуп кереги жок болушу мүмкүн издейт.

2. Scan Орнотуулар Text

Мына, мен сенин сканнер үчүн айдоочулар тууралуу сөз жок, аны менен болгон программалар, сканерлерди ар кандай моделдер үчүн, программалык камсыздоо, да, ар түрдүү жана айтпастан жана так бир иш-аракетти аткарууга кантип көрсөтөбүз - реалдуу эмес болуп саналат.

Бирок, бардык сканерлерди абдан ишти тез жана сапатына таасир бир тарам бар. Бул аларды дагы эле бул жерде сөз жөнүндө болуп жатат. Мен үчүн тизмесин сунуш кылат.

1) Scan сапаты - DPI

Биринчиден, сканер сапаты 300 DPI кем эмес, төмөнкү жолдор менен белгиленген. Ал, мүмкүн болсо, бир аз көбүрөөк үчүн баалуу болуп саналат. Жогорку DPI - айкын Сиздин сүрөт, алуу, ошондой эле, аны менен бирге андан ары кайра иштетүү тезирээк болот. Мындан тышкары, жогорку издөө сапаты - Эгер азыраак ката кийин тууралаш керек болот.

Оптималдуу Variant камсыз кылат, жалпысынан, 300-400 DPI.

2) Chromaticity

Бул параметр абдан текшерүү убактысын таасир (айтмакчы, DPI да таасирин тийгизген, ал эми ошол ушунчалык көп, ал эми бир гана колдонуучу жогорку баасын берсе болот).

Эреже катары, үч түрлөрү бар:

- ак жана кара (текст үчүн кемчиликсиз);

- Боз (столдор жана сүрөттөр менен текст жарактуу);

- Color (жалпы түстүү журнал, китептер үчүн, түстүү маанилүү документтер).

Эреже катары, түстү тандап издөө көз каранды. Анын үстүнө, бир чоң документ бар болсо, анда бүт беттеги да кошумча 5-10 секунд бир аз айланып калат ...

3) Сүрөт

Документти көрүү, сен гана эмес, иликтей ала алышат, ошондой эле, аны сүрөткө тартып келет. Эреже катары, мындай учурда, кээ бир башка көйгөйлөр бар: айкелдин бурмалоо, салдым. Ушул себептен улам, сиз текстти узак андан ары иштетүү жана өзгөртүү керек. Чындап келгенде, мен жумуш камера аркылуу эмес, сунуш кылабыз.

Бул документти баары тааныйт, себеби эмес экенин белгилеп кетүү маанилүү Scan сапаты абдан төмөн болушу мүмкүн ...

3. OCR Документти көрүү

Биз баалаган сканерден сиз алган деп эсептешет. Көпчүлүк учурда, алар түрлөрүн болуп саналат: TIF, bmb, Мэрлердин, PNG. Жалпысынан алганда, ABBYY FineReader үчүн - бул абдан маанилүү эмес, ...

ABBYY FineReader сүрөттөрдөгү ачкандан кийин, программасы, адатта, аймактарды тандап, аларды таануу машинаны башталат. Бирок, кээде бул туура кылган эмес. Бул үчүн биз кол зарыл аймактарында бөлүп карап турат.

Маанилүү! Эмес, баарын бир жолу сол терезеден программасына документти ачуу кийин сиз ар түрдүү багыттарын баса түпнуска документти көрсөтөт экенин түшүнөм. оң терезеден "таануу" программасы баскандан кийин сага даяр текстти көрсөтөт. чагылдырылгандан кийин, жол менен, ал ошол эле FineReader каталар үчүн текстти текшерүү жөндүү.

3.1 текст

Бул аймак текстти баса үчүн колдонулат. Сүрөттөр жана столдор, ал алынып салынат. Сейрек кездешүүчү жана өзгөчө усулунун кол кирип керек ...

текст талаасы экенин баса белгилөө үчүн, FineReader жогору жагындагы тилкеде, кунт коюп уккула. "T" баскычы (скриншот Төмөндө, чычкан баскычы тууралуу так көрсөткүч кара.) Бар. так Төмөнкүнү чыкылдатып, аны, анан Сүрөт текстти жайгашкан тик аймакты, бөлөт. Баса, кээ бир учурларда ал текст блокторун 2-3, кээде беттеги 10-12 түзүү керек, анткени, текст ар түрдүү болушу мүмкүн, бир тик бүт аянты белгиленген эмес.

Бул текст аймагы элестерге дуушар болбошу керек экендигин белгилей кетүү маанилүү! Келечекте, ал силерге көп убакытты сактап калат ...

3.2 Images

сүрөттөрдү жана сапаты начар же адаттан тыш тамга таанып кыйын жерлерди бөлүп көрсөтүү үчүн колдонулат.

Чычкан көрсөткүчү төмөн Скриншоту жылы баскычы "Сүрөттөгү" аянтын тандоо үчүн колдонулат турат. Баса, бул аймакта бетине таптакыр кандайдыр бир бөлүгүн аныктоо мүмкүн жана FineReader анан кадимки сүрөт катары документ, аны киргизүүгө. башкача айтканда, жөн гана "келесоо" көчүрмөсү ...

Негизи, бул аймак стандарттуу эмес текстин жана арип, өзүн-сүрөттөрдү баса үчүн начар сканерден үстөлдөрүн камтыйт.

3.3 Tables

Экрандын төмөнкү обочолонуп үстөлдөргө баскычын турат. Негизи, жеке мен абдан сейрек колдонот. Сиз столдун үстүндө өтө үзгүлтүксүз жакындайт (дээрлик) ар бир сабы болушу жана программаны кантип чындык. стол чакан эмес, жакшы сапат болуп саналат, анда мен аймакты "сүрөт" колдонуу үчүн бул максатта сунуштайбыз. Ошентип, көп убакытты сактап, андан кийин стол Сөзү тез сүрөттөр аркылуу болот.

3.4 ашыкча элементтер

Ал белгилеп кетүү маанилүү. Кээде тексттин таанууга тоскоолдук, же аймакты тандап берген эмес, беттеги ашыкча элементтер бар. Алардын баары жок "өчүргүчтү" колдоно алышат.

Сүрөт түзөтүү режиминде бул коё үчүн.

куралды "Ластик" тандап, керексиз аймактарды тандоо. Ал өчүп, анын ордуна ак баракта болот.

Баса, мен мүмкүн болушунча көп учурда бул параметрди колдонууну сунуштайбыз. Эгер сиз, тексттин бир бөлүгүн керек же эч кандай кереги жок ойлорду алып салдым, бурмалоо менен эмес, тескерисинче, аныкташкан текст талаа аракет - өчүргүчтү жок. Бул таануу жардамы менен тез болот!

4. таануу PDF / DJVU билэ

Жалпысынан алганда, бул аныктоо формат нерсе дагы башка ар түрдүү болушу мүмкүн эмес, - деп айтканда, Аны менен иштөө, ошондой эле мүмкүн болушунча сүрөттөрү менен. 11 жогорулатуу - Эгер көрүү эмес, PDF / DJVU Files гана программа да эски версия болбошу керек.

Насаат сөз. FineReader менен документти ачкандан кийин - бул жазуусу документти таануу башталат. Көп учурда, бетине бир аймактын PDF / DJVU Files бүт документти кереги жок! Бардык барактардан аянтын алып салуу үчүн, төмөнкү:

1. Сүрөт түзөтүүсү бар.

2. параметр боюнча Turn "бутап."

3. Эгерде бардык беттери боюнча каалаган аймакты танда.

4. Click бардык беттердеги колдонулат, анан кесип.

5. Error жыйынтыгын текшерүү жана үнөмдөө

бардык эле зоналар бөлүнүп чыккандан кийин, андан кийин аныкталган Бул көрүнөт, дагы эмне көйгөй болуп калышы мүмкүн, - деп убада берген да ... Ал жерде болгон эмес болгула алып!

Биринчиден, биз документ текшерүүнү керек!

укугуна терезеде, таанып, аны иштетүү үчүн бир "чек" деген баскычты болот. Төмөндө скриншот кара. программа FineReader басуу кийин сага программа ар кандай каталар бар жерлерди көрсөтүп, жазуусу, ал ишенимдүү бир белгисин аныктоо мүмкүн эмес. Сиз бул гана тандоо керек, же силер программасынын пикирине толук макулмун, же өз мүнөзүн кирет.

Айтмакчы, жарым убак тууралуу программа сизге туура сөздү сунуш берүүгө даяр болот - сиз каалаган жолду тандоо үчүн чычканды tölkö болот.

Экинчиден, текшерилгенден кийин сен алардын ишинин натыйжаларын сактап турган түзүлүшү тандай билүү керек.

Бул жерде, FineReader сага толук ылдамдык менен кезек берет: сен жөн эле Сөзүн маалыматтарды, бири-бирине, же түрдө ондогон биринде аны сактай аласыз которо аласыз. Бирок мен дагы бир маанилүү жагын баса белгилеп кетким келет. Кай формат тандап, ал көчүрмөсүн түрүн тандоо үчүн маанилүү! абдан кызыктуу сынап көрөлү ...

толук эмес реплика

Сиз таанылган документте беттеги калыбына бардык аймактар ​​толугу менен баштапкы документте так туура болот. текст түзүү чыгарбашыбыз керек Абдан ыңгайлуу тандоо. Баса, ошол эле ариптер түп абдан окшош болот. Ал буга чейин андан ары ишин улантуу үчүн бар, ошондуктан Сөзүнө документти өткөрүп жатканда, мен ушул нускасын сунуштайбыз.

түзөтүлдү көчүрмөсү

Бул параметр мурунтан эле тексттин калыптанган нускасын алган жакшы. башкача айтканда, оригинал документтин болушу мүмкүн "-чакырымында" менен толтургучтар - сага эч нерсе кыла албайт. Эгер олуттуу маалыматты түзөтө пайдалуу жол.

Бирок, бул долбоор, тамга, кошуунун стилди сактап калыш үчүн керек болсо, тандап алуу зарыл эмес. Кээде, таануу өтө жакшы эмес, болсо - сенин документ өзгөргөндүгүнө үлгүдөгү "бурмалап" болот. Бул учурда, ал так көчүрмөсүн тандап алышы керек.

жөнөкөй текст

эч кандай эс менен кадимки текст бет муктаж болгондор үчүн тандоо. сүрөттөрдү жана үстөлдөргө жок документтерди ылайыктуу.

сканер, ОБТ үстүнөн Бул макалада. Мен бул жөнөкөй учтары менен алардын маселелерди чечип бере алат деп ойлойм ...

Ийгилик коштосун!

Video Watch: 1 түндө 3 автоунааны жана 1 турак үйдү өрттөгөн кылмышкер изделүүдө (Май 2024).