728x90
SMALL
1. 글을 쓰게 된 계기
한국어 데이터 전처리를 진행하게 되면
자주 한국어 문장 분리기를 사용하곤 해서 사용 방법을 정리했습니다.
2. 한국어 문장 분리기 (kss) 사용방법
- KSS(Korean Sentence Splitter) : 한국어 문장을 분리할 수 있는 모듈 (github repo)
from kss import split_sentences
test_txt = "카페를 왔는데 원두 종류도 여러가지로 너무 맛있었다. 8시가 되면 불이 꺼지는데 은은하게 분위기도 있다. 다음에 또 와봐야지 ㅋㅋ"
print(split_sentences(test_txt))
# 출력값 : ['카페를 왔는데 원두 종류도 여러가지로 너무 맛있었다.', '8시가 되면 불이 꺼지는데 은은하게 분위기도 있다.', '다음에 또 와봐야지 ㅋㅋ']
- 파라미터 정의
- text: 문자열 또는 문자열의 목록/튜플
- 문자열: 단일 텍스트 분할
- 문자열 목록/튜플: 배치 텍스트 분할
- backend: 형태소 분석기 백엔드
- backend='auto': 찾기 mecab→ konlpy.tag.Mecab→ pecab→ punct처음 찾은 분석기 사용(기본값)
- backend='mecab': 찾기 mecab→ konlpy.tag.Mecab처음 찾은 분석기 사용
- backend='pecab': pecab분석기 사용
- backend='punct': 구두점 근처에서만 문장을 나눕니다.
- num_workers: 다중 처리 작업자 수
- num_workers='auto': 가능한 최대 작업자 수로 다중 처리 사용(기본값)
- num_workers=1: 다중 처리를 사용하지 않음
- num_workers=2~N: 지정된 작업자 수로 다중 처리 사용
- drop_space: 모든 공백 문자 삭제 여부
- drop_space=True: 출력에서 모든 공백 문자 삭제(기본값)
- drop_space=False: 출력에 모든 공백 문자 유지
728x90
LIST
'Python > Data Engineering' 카테고리의 다른 글
Ray를 활용한 Python 병렬 처리 하기 (feat. gpt api) (0) | 2023.08.22 |
---|---|
DataFrame에서 줄 바꿈, 띄어쓰기 중복 제거 (0) | 2023.02.10 |
문자열 중간 다중 공백 제거하는 방법 (0) | 2023.01.28 |
py-hanspell을 이용한 네이버 맞춤법 검사기 (2) | 2023.01.24 |
KoNLPy를 활용한 한국어 형태소 분석기 비교 (0) | 2023.01.24 |