파이썬 엑셀 중복 데이터 제거 방법

엑셀 파일을 정리하다 보면 같은 데이터가 여러 번 들어가 있는 경우를 자주 보게 됩니다. 처음에는 눈에 잘 띄지 않지만, 중복된 행이 쌓이면 집계가 달라지고 보고서도 부정확해질 수 있습니다. 이 글에서는 파이썬으로 엑셀 중복 데이터를 정리하는 가장 기본적인 방법을 쉽게 이해할 수 있게 설명해보겠습니다.

왜 중복 데이터 제거 작업이 생각보다 중요할까

중복 데이터는 단순히 보기만 지저분한 문제가 아닙니다. 실제 업무에서는 같은 회원 정보가 두 번 들어가 있거나, 거래 내역이 중복 저장되거나, 여러 파일을 합치는 과정에서 동일한 행이 반복되는 일이 자주 생깁니다. 이런 상태로 데이터를 그대로 두면 개수 집계가 달라지고, 합계 금액이 실제보다 크게 나오며, 담당자가 결과를 잘못 해석할 가능성도 높아집니다. 특히 보고서나 정리 파일을 다른 사람과 공유해야 하는 상황에서는 중복된 데이터 하나가 전체 신뢰도를 떨어뜨릴 수 있습니다.

문제는 중복 데이터를 손으로 찾는 일이 생각보다 번거롭다는 점입니다. 행 수가 많지 않을 때는 눈으로 확인할 수 있지만, 파일이 길어지면 어디가 같은 값인지 찾는 것만으로도 시간이 꽤 걸립니다. 게다가 정확히 무엇을 기준으로 중복을 볼지도 매번 달라질 수 있습니다. 어떤 경우에는 전체 행이 완전히 같을 때만 중복으로 봐야 하고, 어떤 경우에는 이름과 연락처만 같아도 중복으로 처리해야 할 수 있습니다. 그래서 이 작업은 사람이 하나씩 확인하기보다 기준을 정해서 자동으로 정리하는 편이 더 안정적입니다. 파이썬은 바로 이 지점에서 강합니다. 한 번 기준을 정해두면 같은 규칙으로 데이터를 깔끔하게 정리할 수 있기 때문입니다.

초보자도 이해하기 쉬운 중복 제거 기본 흐름

파이썬에서 엑셀 중복 데이터를 다룰 때 가장 많이 쓰는 방법은 pandas의 drop_duplicates() 기능입니다. 이름은 낯설 수 있지만 역할은 단순합니다. 말 그대로 같은 데이터를 찾아 하나만 남기고 정리하는 기능입니다. 예를 들어 회원 목록 엑셀 파일에서 같은 이름, 같은 연락처, 같은 이메일이 여러 번 들어갔다면 중복 행을 제거한 새 파일로 저장할 수 있습니다.

가장 기본적인 예시는 아래와 같습니다.

import pandas as pd

df = pd.read_excel("원본파일.xlsx")
clean_df = df.drop_duplicates()
clean_df.to_excel("중복제거완료.xlsx", index=False)

이 코드는 전체 행이 완전히 같은 경우만 중복으로 보고 하나만 남깁니다.

흐름은 단순합니다. 먼저 엑셀 파일을 읽고, 중복을 제거한 뒤, 결과를 새 파일로 저장합니다.

사람이 하던 일을 그대로 코드로 옮긴 구조라고 보면 됩니다. 원본을 보고, 같은 내용이 여러 번 들어간 부분을 하나로 줄이고, 정리된 파일을 다시 저장하는 방식입니다.

하지만 실무에서는 전체 행이 모두 같은 경우보다, 특정 열만 같아도 중복으로 보고 싶은 상황이 더 많습니다.

예를 들어 이름과 연락처가 같으면 같은 사람으로 보고 하나만 남기고 싶을 수 있습니다. 이때는 아래처럼 기준 열을 따로 지정할 수 있습니다.

import pandas as pd

df = pd.read_excel("회원목록.xlsx")
clean_df = df.drop_duplicates(subset=["이름", "연락처"])
clean_df.to_excel("회원목록_정리완료.xlsx", index=False)

여기서 중요한 부분은 subset=["이름", "연락처"]입니다. 이 뜻은 이름과 연락처가 같은 행이 여러 개 있으면 하나만 남긴다는 의미입니다. 가장 자주 막히는 부분은 기준 열을 잘못 정하는 경우입니다. 예를 들어 이름만 기준으로 잡으면 동명이인이 중복으로 처리될 수도 있습니다. 그래서 실제 업무에서는 어떤 값을 기준으로 같은 데이터라고 볼지를 먼저 생각해야 합니다. 자동화는 코드를 아는 것보다 기준을 정확히 잡는 것이 더 중요합니다.

중복 제거는 데이터 정리의 기본이자 다음 작업의 출발점입니다

엑셀 데이터 정리에서 중복 제거는 아주 기본적인 작업처럼 보이지만, 실제로는 이후 분석과 보고의 정확도를 결정하는 중요한 단계입니다. 중복이 제거되지 않은 상태에서는 건수, 금액, 인원 수 같은 숫자가 모두 흔들릴 수 있고, 그 결과를 바탕으로 한 판단도 달라질 수 있습니다. 그래서 여러 파일을 합친 뒤나, 필요한 열만 추린 뒤에는 중복 여부를 한 번 확인하는 습관이 중요합니다. 이 과정이 들어가면 데이터가 훨씬 깔끔해지고, 이후 작업도 더 안정적으로 이어집니다.

파이썬으로 중복 제거를 해두면 같은 기준을 반복해서 적용할 수 있다는 장점이 있습니다. 사람이 눈으로 확인할 때는 그날그날 판단이 달라질 수 있지만, 코드는 같은 기준을 유지합니다. 그래서 정리 결과를 신뢰하기 쉬워지고, 다음에도 같은 파일 구조를 다시 처리하기 편해집니다. 특히 회원 목록, 거래 데이터, 설문 응답, 문의 내역처럼 비슷한 형식의 파일을 자주 다루는 사람이라면 이 기능 하나만 익혀도 업무 부담이 꽤 줄어듭니다.

결국 파이썬 엑셀 자동화는 거창한 개발 작업이 아니라, 반복되는 불편을 하나씩 줄여나가는 과정입니다. 이번 편의 중복 제거는 그중에서도 활용도가 매우 높습니다. 여러 파일을 합치고, 필요한 열만 남기고, 중복까지 정리하면 데이터가 훨씬 실무적으로 다듬어집니다. 그래서 이 작업은 시리즈 안에서도 자연스럽고, 다음 단계로 이어지기에도 좋습니다. 중복 제거를 익혀두면 이후에는 조건별 필터링, 값 치환, 날짜 형식 정리 같은 작업으로도 무리 없이 확장할 수 있습니다.

'업무 자동화' 카테고리의 다른 글

파이썬 사용 엑셀에서 날짜 조건 자동화 방법 (0)	2026.04.05
파이썬 엑셀 조건행 추출 및 저장 자동화 (0)	2026.04.04
파이썬 엑셀 필요한 열만 추출, 저장하기 (0)	2026.04.04
파이썬 엑셀 자동화, 반복 복붙 줄이는 방법 (0)	2026.04.04
엑셀 자동화 입문 코드 없이 시작하는방법 (0)	2026.04.04