기술 및 개발

🔬 리치로드 데이터 정제 및 시각화 방법론

작성자: 리치로드 개발팀최종 업데이트: 2026년 5월

대한민국 정부공직자윤리위원회가 배포하는 고위공직자 재산 변동 관보는 가치 있는 공공 데이터이지만, 원본 데이터의 가공 상태는 지극히 열악합니다. 수천 명의 재산 내역이 병합된 표와 비정형 텍스트가 혼재된 PDF 문서 파일로만 제공되기 때문입니다. 리치로드(Rich Road) 프로젝트는 이 비정형 데이터를 투명하고 직관적인 대시보드와 자산 지도로 변환하기 위해 독자적인 데이터 추출 및 정제 파이프라인을 구축했습니다. 그 기술적 아키텍처와 비하인드 스토리를 투명하게 공개합니다.

1. PDF 수집 및 OCR 텍스트 추출

데이터 수집의 출발점은 행정안전부가 운영하는 대한민국 전자관보 웹사이트입니다. 리치로드의 수집기는 매년 3월 말 정기 재산공개 시기가 되면 전자관보 오픈 API 및 크롤링 봇을 통해 재산공개 키워드가 포함된 PDF 관보 파일을 감지하고 로컬 스토리지로 다운로드합니다.

다운로드된 관보 PDF 파일은 일반적으로 수십만 페이지에 달하는 대용량 문서입니다. 이를 텍스트 데이터로 변환하기 위해 Python 환경에서 pdfplumber와 PyPDF2 라이브러리를 병렬로 가동합니다. 스캔본 이미지 형태로 올라온 일부 지자체 관보의 경우, 고화질 렌더링 처리 후 Tesseract OCR 엔진과 클라우드 비전 API를 접목하여 텍스트 인식률을 99.8% 이상으로 보정하는 전처리 과정을 거칩니다.

2. 정규표현식(Regex) 기반 데이터 정제 및 분류

가장 챌린징한 단계는 추출된 원본 텍스트 뭉치에서 관계형 데이터를 추출하는 일입니다. 관보의 부동산 주소, 예금 금융기관명, 코인 수량 등은 공통된 표준 포맷이 없이 작성자가 직접 텍스트로 타이핑하여 제출하기 때문입니다. 리치로드는 이를 해결하기 위해 수십 개의 정규식 패턴 그룹을 정의하여 가동하고 있습니다.

공직자 메타데이터 추출: 이름, 소속 기관(예: 국회, 서울특별시), 직위(예: 국회의원, 시장)를 매칭하여 공직자 인덱스 테이블을 생성합니다.
자산 종류 분류: 부동산, 토지, 예금, 증권, 채무 등의 키워드 그룹과 화폐 단위(천원, 만원, 억원)를 판별해 자산 유형별 금액 데이터를 추출하고 원 단위로 표준 정량화합니다.
부동산 주소 파싱: "경상북도 안동시 풍천면 갈전리 1600..."와 같이 비정형 텍스트에 포함된 상세 주소 문자열만 정확히 골라냅니다.

3. 지오코딩(Geocoding)을 통한 공간 정보 매핑

리치로드의 핵심 기능 중 하나인 '자산 지도'를 구현하기 위해서는 부동산의 텍스트 주소를 위도와 경도 좌표로 수치화해야 합니다. 정제된 부동산 주소 데이터를 바탕으로 Kakao 로컬 API 및 국토교통부 브이월드(V-world) 지오코딩 엔진을 통과시킵니다. 이 과정에서 주소 체계 변환 시의 지오코딩 한계점을 극복하기 위한 대표 좌표 매핑 알고리즘이 적용됩니다. 전체 소스 코드와 상세 데이터 파이프라인 아키텍처는 리치로드 공식 깃허브 저장소를 통해 공개되어 누구나 기여할 수 있도록 돕습니다.

🔬 리치로드 데이터 정제 및 시각화 방법론

1. PDF 수집 및 OCR 텍스트 추출

2. 정규표현식(Regex) 기반 데이터 정제 및 분류

3. 지오코딩(Geocoding)을 통한 공간 정보 매핑

🪙 가상자산 신고 의무화 배경과 현황

🔍 이해충돌 방지법과 재산공개의 긴밀한 상관관계