본문 바로가기
Python/Data Engineering

한국어 문장 분리기 (kss - korean sentence splitter) 사용방법

by JONGSKY 2023. 2. 10.
728x90
SMALL

1. 글을 쓰게 된 계기

 

한국어 데이터 전처리를 진행하게 되면

자주 한국어 문장 분리기를 사용하곤 해서 사용 방법을 정리했습니다.

 

2. 한국어 문장 분리기 (kss) 사용방법

 

- KSS(Korean Sentence Splitter) : 한국어 문장을 분리할 수 있는 모듈 (github repo)

 

from kss import split_sentences

test_txt = "카페를 왔는데 원두 종류도 여러가지로 너무 맛있었다. 8시가 되면 불이 꺼지는데 은은하게 분위기도 있다. 다음에 또 와봐야지 ㅋㅋ"

print(split_sentences(test_txt))

# 출력값 : ['카페를 왔는데 원두 종류도 여러가지로 너무 맛있었다.', '8시가 되면 불이 꺼지는데 은은하게 분위기도 있다.', '다음에 또 와봐야지 ㅋㅋ']

kss 예시

 

- 파라미터 정의

 

  • text: 문자열 또는 문자열의 목록/튜플
    • 문자열: 단일 텍스트 분할
    • 문자열 목록/튜플: 배치 텍스트 분할
  • backend: 형태소 분석기 백엔드
    • backend='auto': 찾기 mecab→ konlpy.tag.Mecab→ pecab→ punct처음 찾은 분석기 사용(기본값)
    • backend='mecab': 찾기 mecab→ konlpy.tag.Mecab처음 찾은 분석기 사용
    • backend='pecab': pecab분석기 사용
    • backend='punct': 구두점 근처에서만 문장을 나눕니다.
  • num_workers: 다중 처리 작업자 수
    • num_workers='auto': 가능한 최대 작업자 수로 다중 처리 사용(기본값)
    • num_workers=1: 다중 처리를 사용하지 않음
    • num_workers=2~N: 지정된 작업자 수로 다중 처리 사용
  • drop_space: 모든 공백 문자 삭제 여부
    • drop_space=True: 출력에서 ​​모든 공백 문자 삭제(기본값)
    • drop_space=False: 출력에 모든 공백 문자 유지
728x90
LIST