← 블로그

이미지 속 텍스트 추출하는 법

생활 2026년 2월 24일 · 6분 읽기

얼마 전에 오래된 종이 영수증을 정리하다가 경비 처리를 위해 내용을 일일이 타이핑해야 하는 상황이 생겼습니다. 50장 넘는 영수증을 하나하나 옮겨 적으려니 막막하더군요. 그때 OCR이 떠올랐고, 실제로 써보니 체감 효율이 엄청났습니다.

OCR이 뭔지부터 짚고 넘어가겠습니다

OCR은 Optical Character Recognition의 약자로, 한국어로는 광학 문자 인식이라고 합니다. 쉽게 말하면 이미지 안에 있는 글자를 컴퓨터가 인식해서 편집 가능한 텍스트로 바꿔주는 기술입니다.

원리를 간단히 설명하면 이렇습니다. 먼저 이미지에서 글자가 있을 법한 영역을 찾아냅니다. 그 다음 각 글자의 윤곽선을 분석해서 어떤 문자인지 판별합니다. 최근에는 딥러닝 기술 덕분에 인식 정확도가 비약적으로 높아졌어요. 손글씨까지 어느 정도 읽어내는 수준입니다.

과거에는 OCR이라고 하면 전문 스캐너와 비싼 소프트웨어가 필요했는데, 지금은 스마트폰 카메라로 찍은 사진만 있어도 웹 브라우저에서 바로 텍스트 추출이 가능합니다.

어떤 상황에서 쓸 수 있을까

스캔한 문서 디지털화: 회사에서 종이 계약서나 보고서를 디지털로 보관해야 할 때가 많습니다. 스캐너로 PDF를 만들면 이미지일 뿐이라 검색이 안 되는데, OCR을 돌리면 텍스트가 추출되어 키워드 검색이 가능해집니다.

명함 정보 정리: 네트워킹 행사에서 받은 명함 더미. 이름, 전화번호, 이메일을 하나하나 타이핑하는 건 고역이죠. 명함을 촬영하고 OCR을 돌리면 연락처 정보를 빠르게 추출할 수 있어요.

스크린샷에서 텍스트 복사: 이게 의외로 많이 쓰이는 상황입니다. 다른 프로그램의 에러 메시지를 복사할 수 없을 때, PDF에서 텍스트 선택이 안 될 때, 채팅 캡처에서 내용을 옮겨야 할 때. 스크린샷을 OCR에 넣으면 바로 해결됩니다.

외국어 간판이나 메뉴판: 해외여행 중에 메뉴판이 현지 언어로만 되어 있을 때, 사진을 찍고 OCR로 텍스트를 추출한 다음 번역기에 돌리면 꽤 쓸만한 번역이 나옵니다.

인식률을 확 올리는 팁 5가지

OCR 기술이 좋아졌다고 해도, 이미지 상태에 따라 인식률 차이가 큽니다. 몇 가지만 신경 쓰면 결과가 많이 달라져요.

1. 밝고 균일한 조명에서 촬영하세요. 그림자가 글자 위에 드리워지면 인식률이 뚝 떨어집니다. 자연광이 고르게 비치는 환경이 가장 좋고, 형광등 아래도 괜찮습니다. 플래시는 반사를 일으킬 수 있어서 피하는 게 나아요.

2. 문서를 평평하게 펴주세요. 책이나 잡지처럼 가운데가 말려 있으면 글자가 뒤틀려서 인식이 어려워집니다. 유리판으로 눌러서 촬영하거나, 가능하면 낱장으로 스캔하는 게 좋습니다.

3. 해상도는 높을수록 좋습니다. 너무 작은 이미지는 글자 윤곽이 뭉개져서 인식이 안 됩니다. 최소 300 DPI 이상을 권장하고, 스마트폰 카메라 기본 해상도면 대부분 충분합니다. 다만 이미지를 크롭할 때 너무 작게 자르지 마세요.

4. 대비를 높여주세요. 흰 배경에 검은 글씨가 가장 인식률이 높습니다. 색상 배경 위의 연한 글씨는 인식이 잘 안 될 수 있어요. 이미지 편집 도구로 대비를 높이거나 흑백으로 변환하면 도움이 됩니다.

5. 기울어진 이미지는 보정하세요. 촬영 각도가 비뚤어지면 인식 정확도가 낮아집니다. 대부분의 OCR 도구에 자동 보정 기능이 있지만, 미리 이미지를 수평으로 맞춰두면 더 정확합니다.

OCR 결과물 후처리도 중요합니다

OCR로 추출한 텍스트가 100% 완벽한 경우는 드뭅니다. 숫자 0과 영문 O가 헷갈리거나, 비슷한 모양의 한글 자모가 잘못 인식되는 경우가 있어요. 특히 숫자가 중요한 금융 문서나 계약서라면 반드시 한 번 검수를 거치세요.

추출된 텍스트에 불필요한 줄바꿈이 들어가는 것도 흔한 문제입니다. 원본 문서에서는 한 문단인데, OCR 결과에서는 각 줄마다 줄바꿈이 들어가 있거든요. 이건 텍스트 에디터의 찾기/바꾸기 기능으로 정리할 수 있습니다.

한글과 영문이 섞인 문서는 인식률이 약간 떨어질 수 있습니다. 특히 전문 용어나 고유명사가 많은 기술 문서라면, 추출 후에 용어가 제대로 인식되었는지 확인해보는 것을 권합니다.

개인정보 주의사항

한 가지 꼭 언급하고 싶은 것이 있습니다. OCR을 온라인 서비스로 이용할 때, 이미지가 서버로 전송되는 경우가 있어요. 주민등록증, 여권, 의료 기록처럼 민감한 정보가 담긴 문서는 가능한 로컬에서 처리하는 것이 안전합니다. 브라우저 내에서 처리되는 도구를 선택하면 이미지가 외부로 나가지 않아 안심할 수 있습니다.