본문 바로가기

IT/Software

아크로뱃 프로 DC 문자인식, OCR 사용방법

회사, 학교 등 다양한 곳에서 서로의 요구사항 또는 안내를 위해 필요한 내용을 한글 또는 워드 파일로 작성해 배포를 합니다. 제공하는 대상이 같은 회사소속의 내부인이라면 편집이 가능한 문서파일로 제공해도 문제가 없지만 고객, 거래처와 같은 클라이언트에게는 수정이 불가능한 PDF 파일을 제공하곤 합니다.

또한 PDF는 각 나라마다 자국의 고유한 문서 프로그램이 난립하고 있는 상황에서 국제적으로 표준 전자 문서로 사용되고 있으며, 문서 수정 제한, 암호를 통한 보호 등의 특징을 가집니다. 

이외에도 문서 또는 책 등에서 필요한 부분이 있을 시 PDF로 스캔하여 보관하는데, 파일을 구글 드라이브, 네이버 메일, 드랍박스 등과 같은 곳에 보관해 인터넷 연결이 되는 곳이라면 언제 어디서든 안드로이드 스마트폰, 아이폰, 아이패드, 태블릿PC와 같은 휴대기기에서도 편리하게 볼 수 있습니다.

우리가 흔히 사용하는 전자책 역시 PDF로 된 문서로 이루어져 있으며, 텍스트 검색을 통해 내가 원하는 부분을 찾고 형광펜 강조표시, 밑줄 등 다양한 편의 기능을 사용할 수 있습니다. 특히 방대한 분량을 가진 도서의 경우 검색이 가능하다는 점에서 종이로 제작된 책과 비교시 시간과 효율성에서 엄청난 차이를 보이기도 합니다. 

하지만 모든 파일이 텍스트 검색을 지원하지는 않습니다. PDF 제작 시 모든 텍스트가 이미지화로 이루어 지기에 OCR(Optical Character Recognition) 즉, 광학식 문자 판독 작업이 필요합니다. 광학식 문자 판독 작업을 지원하는 여러 프로그램이 있지만 유틸마다 텍스트 인식률 차이가 있다고 하니 잘 비교해서 선택하시기 바랍니다.

오늘 소개할 OCR 프로그램은 어도비에서 출시한 것으로 아크로뱃 프로와 DC 두가지 유틸이 텍스트 인식을 지원합니다.

OCR 텍스트 인식하기

일반적으로 PDF 파일들은 글자를 클릭하면 하나의 문자가 선택되지 않고 이미지처럼 1페이지 전체가 선택됩니다.

OCR 기능을 적용하기 위해 다음과 같이 실행합니다.

1. 아크로뱃 DC

 

가) 도구 → PDF 편집

나) 우측 검색도구 → 스캔 및 OCR

 

 

2. 아크로뱃 PRO

 

 

 

Document → OCR Text Recognition

스캔 및 OCR 메뉴가 나타나면 텍스트 인식을 클릭합니다. 텍스트 인식 선택 시 '이 파일에서', '여러 파일에서' 옵션이 나타나는데, 여러 파일을 동시에 호출 합니다. 변환할 파일이 선택되면 페이지, 언어, 설정 세가지 항목 설정 화면이 나타납니다.

현재 화면에 보이는 1page만 OCR 작업을 하고 싶다면 현재 페이지를 선택하고 파일 모두에 적용하고 싶다면 모든 페이지로 변경합니다. 만약 페이지를 지정해서 텍스트화 하고 싶다면 시작 페이지와 종료페이지를 지정할 수도 있습니다. 

언어 설정은 현재 문서가 한글로 되어 있다면 한국어로 상태로 두고 영어로 된 문서라면 영어로 변경합니다. dpi 설정은 기본 수치 그대로 유지하고 텍스트 인식을 진행합니다.

498페이지 문서 전체가 텍스트 및 이미지로 변환 중이며, 작업 완료까지 대략 40분 소요되었습니다. 변환 시간이 다소 오래걸린 것은 인텔 I5 4세대 CPU와 HDD 저장장치를 가진 서브 컴퓨터를 사용했기 때문입니다. 최신 CPU와 SSD를 운용중인 유저라면 상당시간 단축될 것으로 보이며, 노트북 환경에서는 텍스트 변환에 상당시간이 필요할 것으로 보이기에 추천하지는 않습니다.

 

변환에 이용된 시스템 사양은 아래와 같습니다.

- 운영체제 : Windows 10 Pro

- 프로세스 : Intel I5-4590 3.3GHz

- 메모리 : 6.0 GB

- 저장장치 : HDD 1TB

OCR 작업 전 전체 페이지 선택만 가능했지만 글자 하나 하나에 대해서 블럭 설정, 형광펜 표시 추가 및 삭제가 자유자재로 가능합니다. 또한 OCR 작업에서 가장 중요한 요소인 텍스트 인식률은 실패한  문자를 찾지 못할 정도로 거의 완벽한 인식률을 보여줍니다. 변환이 완료된 파일은 다른 이름으로 저장해 별도로 관리하거나 덮어씌우기를 진행하면 됩니다.

아크로뱃 Pro와 DC 프로그램 사용을 위해 유료로 구입해야 하는 단점이 있지만 텍스트와 그림에 대한 높은 인식률, 간편한 인터페이스, 변환된 텍스트를 옮길 필요없이 즉시 저장이 가능한 점 등은 시간을 절약을 위해 막대한 돈을 투자하는 현대사회에서 매우 매력적인 프로그램으로 생각됩니다.