AI자동화업무효율데이터관리

데이터 정리 AI로 자동화하기 - 지저분한 데이터 순식간에 깔끔하게

5분 읽기

데이터 정리 AI로 자동화하기 - 지저분한 데이터 순식간에 깔끔하게

불규칙한 형식의 엑셀 파일을 정리하고, 중복을 제거하고, 누락된 값을 채우고, 형식을 통일하는 일. 이런 데이터 정리 작업에 하루를 다 쓴 적이 있을 겁니다. AI는 이런 지루한 작업을 몇 초 만에 처리합니다.

데이터 정리가 이렇게 오래 걸리는 이유

데이터는 항상 지저분합니다. 고객 명단은 같은 사람이 다른 이름으로 여러 번 등록되어 있고, 매출 데이터는 날짜 형식이 제각각이고, 설문 결과는 오타와 빈 칸이 가득합니다.

수작업으로 정리하면 시간도 오래 걸리고 실수도 많습니다. "홍길동", "홍 길동", "홍길 동"을 같은 사람으로 인식해서 통합하는 것, 빈 칸이 있는 행을 찾아서 삭제하는 것, 전화번호 형식을 010-1234-5678로 통일하는 것. 이런 작업이 수천 개 행에 걸쳐 있으면 끝이 없습니다.

ChatGPT로 데이터 정제 로직 만들기

ChatGPT는 데이터 정리 규칙을 자동으로 만들어줍니다. 엑셀 수식이나 Python 코드로 변환해줍니다.

"A열의 전화번호를 010-0000-0000 형식으로 통일하는 엑셀 수식 만들어줘"라고 요청하면, 즉시 수식을 생성합니다. 복사해서 엑셀에 붙여넣기만 하면 됩니다.

더 복잡한 정리가 필요하면 Python 코드를 요청하세요. "엑셀 파일에서 중복 제거하고, 빈 칸 있는 행 삭제하고, 날짜를 YYYY-MM-DD 형식으로 통일하는 Python 코드 만들어줘"라고 하면 완성된 코드를 받을 수 있습니다. Google Colab에서 실행하면 몇 초 만에 정리됩니다.

OpenRefine으로 대량 데이터 정제

전문적인 데이터 정리가 필요하다면 OpenRefine을 사용하세요. AI 기능이 내장된 무료 도구입니다.

OpenRefine은 데이터의 패턴을 자동으로 인식합니다. "서울", "서울시", "서울특별시"를 같은 값으로 인식하고 통일할지 물어봅니다. 클릭 한 번으로 모든 변형을 하나로 통합할 수 있습니다.

빈 칸 채우기도 자동화됩니다. 위 셀의 값을 반복해서 채우거나, 패턴을 인식해서 예측 값을 넣을 수 있습니다. 수천 행의 데이터도 몇 초면 정리됩니다.

Excel의 Flash Fill과 Power Query 활용

Excel에도 강력한 AI 기능이 있습니다. Flash Fill은 예시를 보고 패턴을 학습해서 자동으로 나머지를 채워줍니다.

예를 들어 A열에 "홍길동(서울)"이 있고, B열에 이름만, C열에 지역만 분리하고 싶다면, 첫 두 개 행에 예시를 입력하세요. Flash Fill이 패턴을 인식하고 나머지를 자동으로 채웁니다.

Power Query는 더 강력합니다. 데이터 변환 과정을 기록해두면, 다음번에는 클릭 한 번으로 같은 작업을 반복할 수 있습니다. 매주 받는 데이터를 같은 방식으로 정리한다면 완전 자동화가 가능합니다.

Python pandas와 ChatGPT 조합

대용량 데이터나 복잡한 변환은 Python이 최고입니다. 코딩을 모르더라도 ChatGPT와 함께라면 가능합니다.

ChatGPT에게 "엑셀 파일 3개를 합치고, 날짜별로 정렬하고, 매출 합계를 구하는 pandas 코드 만들어줘"라고 요청하세요. 완성된 코드를 받아서 Google Colab에 붙여넣고 실행하면 됩니다.

에러가 나면 에러 메시지를 ChatGPT에 붙여넣으세요. 수정된 코드를 즉시 받을 수 있습니다. 반복 작업이라면 코드를 저장해두고 다음번엔 파일 이름만 바꿔서 실행하면 됩니다.

실천 가이드

오늘부터 데이터 정리를 AI로 자동화하는 방법입니다.

  1. 정리 패턴 파악하기: 자주 하는 데이터 정리 작업을 리스트로 만드세요. 중복 제거, 형식 통일, 빈 칸 처리 등. 가장 시간이 많이 걸리는 것부터 자동화하세요.

  2. 간단한 건 Flash Fill로: 엑셀에서 데이터 분리, 결합, 형식 변경 정도는 Flash Fill로 충분합니다. 예시 2-3개만 입력하고 Ctrl+E를 누르세요.

  3. 반복 작업은 Power Query로: 매주 같은 형식의 데이터를 정리한다면 Power Query로 한 번 과정을 기록하세요. 다음번엔 새 파일만 불러오면 자동으로 정리됩니다.

  4. 복잡한 건 ChatGPT에 요청: Python 코드나 복잡한 엑셀 수식이 필요하면 ChatGPT에게 자연어로 요청하세요. 코드를 받아서 실행만 하면 됩니다.

  5. 템플릿 저장하기: 효과적인 정리 방법을 찾았다면 코드나 수식을 템플릿으로 저장하세요. 다음번엔 복사해서 재사용하면 됩니다.

마무리

데이터 정리는 중요하지만 창의성이 필요 없는 단순 작업입니다. AI에게 맡기고 당신은 정리된 데이터로 분석과 의사결정을 하세요. 하루 걸리던 정리 작업을 10분으로 줄일 수 있습니다.

지저분한 데이터 앞에서 한숨 쉬지 마세요. ChatGPT에게 어떻게 정리하고 싶은지 설명하고, 코드를 받아서 실행하세요. 데이터는 AI가 정리하고, 당신은 인사이트를 찾는데 집중하세요.

함께 읽으면 좋은 글