본문 바로가기

세상의 노하우(꿀팁 찾기)

알PDF로 글자(문자) 인식 기능(OCR) 사용하는 방법

알 PDF로 글자 인식이 안 되는 파일을 글자 인식, 편집 가능한 파일로 만들기

TITLE : 알 PDF로 글자 인식 하는 법

 

PDF 파일을 사용하다보면 마우스로 글자를 드래그해보면 글자가 인식하여 복사를 할 수 있는 경우도 있고, 글자 인식이 안 되는 경우도 있습니다.

 

전자의 경우에는 파일을 만든후 바로 PDF로 저장이나 변환을 한 경우라 PDF 파일 내용에 있는 문자들을 읽어 들일 수 있지만, 후자의 경우에는 파일을 만든 후 스캔을 한 경우가 대부분으로 이미지 파일이라고 볼 수 있습니다.

 

PDF 파일에 있는 내용을 문자로 읽어들일 수 있다면 편집이나 복사, 한글/영문 번역 등등 장점이 많습니다.

 

그래서 PDF의 문자를 읽을 수 없는 파일을 읽을 수 있는 파일로 바꾸는 것이 한 번씩 필요하게 됩니다.

 

물론 PDF에 있는 내용이 별로 많지 않다면 타이핑해서 내용을 따로 저장해 둘 수도 있겠죠. 하지만 그 시간이라도 아까울 때가 있으니 아래와 같은 방법을 사용해 보면 어떨까 합니다.

 

 

첫번째는 집이나 회사에 있는 프린터기가 PDF의 글자를 인식할 수 있는 파일로 스캔하는 기능이 있을 경우 해보면 됩니다.

 

요즘 나오는 프린터기에는 이런 기능들이 들어있는 경우가 있으니 활용해 보면 좋겠죠.

 

두 번째로는 위와 같은 프린터기가 없을 때, 즉 컴퓨터상에 PDF 파일이 있고 바로 문자를 읽을 수 있는 파일로 변환하고 싶을 때 사용하면 됩니다.

 

두 번째 경우가 확실히 더 편하고 쉽겠죠. 프린터기로 프린트할 필요도 없고, 바로 변환이 가능하니깐요.

 

아래와 같이 알PDF를 활용해서 사용해 보면 됩니다. 

 

알 PDF는 기본적으로 PDF 뷰어, 편집, 변환, 파일 합치기 등등을 지원해주는 알툴즈 중에 하나이죠.

 

 

이런 알PDF에 문자인식 기능이 있습니다.

 

PDF 파일에서 문자, 문장 전체를 읽을 수 있는 형태의 파일로 만들어 편집, 복사 등이 가능한 것이죠.

 

아래와 같이 빨간색으로 표기한 부분이 문자인식에 대해 설명되어 있는 부분입니다.

 

 

알 PDF는 포털 사이트에서 검색하시면 해당 홈페이지로 접속되니 이후 설치하기를 진행하여 다운로드를 한 후 설치하면 되겠습니다.

 

 

그렇다면 문자 인식이라고 하는 것은 무엇인지 간단히 살펴보고 갈까요?

 

OCR이라고 하는데 영문으로 Optical character reader / recognition 이라고 되어 있습니다.

말 그대로 보자면 이미지로 되어 있는 문자를 읽어들이거나 인식하는 것이라고 되어 있고 우리말로는 광학 문자 판독장치라고도 말할 수 있을 거 같습니다.

 

위 설명과 같이 문자를 타이핑치지 않아도 되도록 문자를 인식해주는 기술이라는 것이죠.

 

알 pdf를 설치해주게 되면 실행이 가능한데, 위 설명과 같이 문자인식 OCR을 위한 플러그인을 추가로 설치해주면 간단히 완료가 됩니다.

 

이 플러그인을 설치하는 방법은 위와 같이 알 PDF의 버전에 따라 설치 파일이 각각 나뉘어 있으니 해당 버전을 확인하고 설치를 해주면 되겠습니다.

 

 

알PDF의 버전을 확인하고 싶으면, 알 PDF 설치 후 실행화면에서 아래와 같이 도움말 > 제품 정보 > 버전 확인을 하면 되겠습니다.

 

위와 같이 빨간색으로 표기한 부분이니 참고하시면 되겠습니다.

 

버전확인이 어렵다, 귀찮다 하시는 분들은 굳이 위와 같이 버전 확인을 하지 않고도 알아서 OCR 플러그인을 설치하는 방법도 있으니 아래와 같이 해보면 되겠습니다.

우선 알PDF를 실행해봅니다. 

 

그다음을 문자 인식할 PDF 파일을 불러오도록 합니다.

 

그러고 나서 위와 같이 홈 > 문자인식(OCR)이나 아래 화면과 같이 편집 > 문자인식(OCR)을 실행하도록 합니다.

 

둘 다 같은 실행 방식이니 편한 곳에서 선택을 하면 되겠습니다. 

 

해당 버튼을 누르게 되면 문자 인식 기능을 하기위해서 플러그인이 필요하다는 내용이 팝업으로 뜨게 됩니다.

 

다운로드를 선택하여 플러그인을 설치해 주면 되겠습니다.

기본적으로 플러그인 설치 파일의 용량이 390MB로 작지는 않은 용량입니다.

 

집 밖에서 만약 노트북으로 설치를 한다던가 할때는 와이파이가 되는 환경인지, 테더링 시에는 용량에 여유가 있는지 사전에 잘 확인하고 다운로드해야 하겠네요.

 

 

다운로드 완료 후 설치를 하는 화면은 아래와 같습니다. 

위와 같이 원본 파일에서 스캔후 편집 가능한 파일로 변환할 때 지원되는 언어를 확인하는 것도 체크해주세요.

 

기본적으로는 한국어와 영어를 지원하고 있고, 추가적인 언어들이 필요하면 언어 변경 탭을 선택하여 아래와 같은 화면에서 추가 또는 변경을 해주면 되겠습니다.

 

 

자, 이제 준비는 다 끝났습니다. 위에서 본 문자인식 OCR 버튼을 선택해주면 아래와 같이 문자 인식 중이라고 팝업이 나오고 100% 완료가 되면 글자 인식 가능한 PDF가 만들어지게 됩니다.

소요시간은 파일 용량 및 PDF 페이지의 수에 따라 다른데 10장 내외는 1분정도면 될 것 같습니다.

 

프린터기로 스캔을 하는 것보다 쉽고, 편리하죠.

 

아 그리고 이렇게 할 경우 스캔의 정확도는 90% 정도라고 볼 수 있습니다.

 

위와 같이 문자 인식 스캔이 완료된 파일을 볼 수가 있는데요. 보다시피 마우스로 드래그를 했을 때 글자가 복사 가능한 형태로 선택이 되는 것을 볼 수 있습니다.

 

글자만 있는 PDF의 경우는 거의 동일한 내용으로 복사가 잘 되는것을 볼 수 있습니다. 

 

글자가 다르거나 틀린부분은 보이지 않습니다.

 

원본 파일 자체가 선명하고 똑바르게 스캔된 파일이라면 문자 인식 정확도가 꽤 높게 나올 것 같습니다.

 

만약 다른부분이 있다면 그 부분만 추가 편집을 해주면 되겠네요. 

 

이 정도로만 스캔이 되더라도 추가적으로 복사해서 내용을 활용한다던가, 만약 영문 파일이라면 복사해서 번역기를 돌린다던가 일이 수월해질 거 같습니다.

 

 

[같이 보면 좋을 내용들]

 

아주 쉽게 엑셀(Excel)로 달력 만드는 방법

 

아주 쉽게 엑셀(Excel)로 달력 만드는 방법

아주 쉽게 엑셀(Excel)로 달력 만드는 방법 한 번쯤 달력은 만들어보고 싶을 때가 있습니다. 마트나 다이소 등에서 탁상 달력 등을 살 수도 있지만 좀 더 다양한 달력이나 기능이 있으면 좋겠다 싶

jake-inventory.tistory.com

 

익스플로러에서 신뢰할수 있는 사이트 추가해야 할 때

 

익스플로러에서 신뢰할수 있는 사이트 추가해야 할 때

익스플로러에서 신뢰할 수 있는 사이트 추가 필요할 때 인터넷 익스플로러를 사용하다 보면 제약이 따를 때가 있습니다. 구글 크롬이나, 네이버 웨일 브라우저등은 알아서 적용이 되는 부분도

jake-inventory.tistory.com

 

즐거운 한 주 보내세요.