본문 바로가기
Python/Data Engineering

DataFrame에서 줄 바꿈, 띄어쓰기 중복 제거

by JONGSKY 2023. 2. 10.
728x90
SMALL

1. 글을 쓰게 된 계기

 

python DataFrame에서 실제 데이터셋을 수집하다 보면

띄어쓰기 또는 줄 바꿈이 여러 번 반복되는 경우를 쉽게 찾아볼 수 있다.

 

그럴 때 DataFrame에서 replace를 이용해서

쉽게 한 줄로 띄어쓰기 한 번으로 변환하는 코드를 설명하고자 한다.

 

2. 사용 방법

 

df['컬럼이름'].str.replace('\s+', ' ')

 

다음과 같이 사용하면 해당 컬럼이름에 해당하는 값들을 string 값으로 변경하고

줄 바꿈, 띄어쓰기를 띄어쓰기 1번으로 모두 줄일 수 있다.

 

예시코드는 다음과 같다.

 

test_data = ['test\n\n\n\ntest111', '22test\n\n\n       test']

for i in test_data:
    print(i)
    
df = pd.DataFrame(test_data,columns=['before_test'])

df['after_test'] = df['before_test'].str.replace('\s+', ' ') # 중복된 띄어쓰기,줄바꿈을 띄어쓰기 1개로 전체 바꾸기

display(df)

728x90
LIST