728x90
SMALL
1. 글을 쓰게 된 계기
python DataFrame에서 실제 데이터셋을 수집하다 보면
띄어쓰기 또는 줄 바꿈이 여러 번 반복되는 경우를 쉽게 찾아볼 수 있다.
그럴 때 DataFrame에서 replace를 이용해서
쉽게 한 줄로 띄어쓰기 한 번으로 변환하는 코드를 설명하고자 한다.
2. 사용 방법
df['컬럼이름'].str.replace('\s+', ' ')
다음과 같이 사용하면 해당 컬럼이름에 해당하는 값들을 string 값으로 변경하고
줄 바꿈, 띄어쓰기를 띄어쓰기 1번으로 모두 줄일 수 있다.
예시코드는 다음과 같다.
test_data = ['test\n\n\n\ntest111', '22test\n\n\n test']
for i in test_data:
print(i)
df = pd.DataFrame(test_data,columns=['before_test'])
df['after_test'] = df['before_test'].str.replace('\s+', ' ') # 중복된 띄어쓰기,줄바꿈을 띄어쓰기 1개로 전체 바꾸기
display(df)
728x90
LIST
'Python > Data Engineering' 카테고리의 다른 글
Python asyncio를 활용한 비동기 프로그래밍 (0) | 2023.08.25 |
---|---|
Ray를 활용한 Python 병렬 처리 하기 (feat. gpt api) (0) | 2023.08.22 |
한국어 문장 분리기 (kss - korean sentence splitter) 사용방법 (0) | 2023.02.10 |
문자열 중간 다중 공백 제거하는 방법 (0) | 2023.01.28 |
py-hanspell을 이용한 네이버 맞춤법 검사기 (2) | 2023.01.24 |