본문 바로가기
728x90
SMALL

전체 글115

py-hanspell을 이용한 네이버 맞춤법 검사기 1. 글을 쓰게 된 계기 여러 한국어 형태소 분석기를 사용하면서 맞춤법이 맞지 않을 때 형태소 분석기가 잘 되지 않는 현상을 확인했다. 그래서 이번 프로젝트에서 사용하는 데이터 특성상 ★그램 리뷰 데이터들은 오탈자가 많다는 문제가 있어서 맞춤법 검사기를 사용한 뒤에 형태소 분석을 진행하려고 한다. 2. 사용 방법 다음 명령어를 사용해 git 저장소를 clone 해서 저장받고 모듈을 설치해 보도록 하자. (py-hanspell git repo) git clone https://github.com/ssut/py-hanspell cd py-hanspell python setup.py install 이제 다음 받은 모듈을 불러와서 테스트해보자. spell.checker.check("검사할문장") 을 이용하면 맞.. 2023. 1. 24.
KoNLPy를 활용한 한국어 형태소 분석기 비교 1. 글을 쓰게 된 계기 프로젝트를 진행하면서 한국어에서 유의미한 내용만 전처리하는 과정을 수행하게 되면서 한국어 형태소 분석기가 여러 종류가 있고 그것에 대해서 정리해 보면 좋겠다고 생각하게 되었습니다. (Okt를 쓰면서 띄어쓰기 유무에 따라 10분 이상 차이 나는 것을 보며 충격 먹었다.) 많은 형태소 분석이 있겠지만 저는 Okt, Komoran, Kkma, Mecab을 비교해보려고 합니다. 2. 사전 작업 okt, komoran, kkma를 사용하기 위해서는 konlpy를 설치만 하면 된다. mecab을 사용하기 위해서는 bash 창에서 아래 코드처럼 실행해 준다. (OS별로 다른 설치 코드가 있기 때문에 KoNLPy 사이트를 참고하자) # okt, komoran, kkma를 사용하기 위한 konl.. 2023. 1. 24.
Mecab 설치 에러 해결 : Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/ 1. 글을 쓰게 된 계기 Mecab을 이용해서 형태소 분석을 하려고 했으나 다음과 같은 오류가 나서 해결하고자 한다. 2. 해결방법 3가지 설치 과정을 통해 문제를 해결할 수 있습니다. 1. mecab-ko 설치 2. mecab-dic 설치 3. mecab-python 설치 1. mecab-ko 설치 - Mecab을 wget을 이용해 설치합니다. wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz - 해당 파일 압축을 해제합니다. tar xvfz mecab-0.996-ko-0.9.2.tar.gz - 해제 후 다음코드를 차례대로 설치합니다. cd mecab-0.996-ko-0.9.2 ./configure make.. 2023. 1. 22.
(KNN) K-Nearest Neighbors 정리 1. K 최근법 이웃 알고리즘이란? (KNN) KNN 또는 K - Nearest Neighbors 또는 K-최근법 이웃 알고리즘이라고 불리는 알고리즘은 (이하 KNN으로 통일) 데이터 분류작업에서 기초가 되는 알고리즘으로, 새로운 입력으로 들어온 데이터를 특정값으로 분류하는데 현재 데이터와 가장 가까운 K개의 데이터를 찾아서 가장 많은 분류 값으로 현재의 데이터를 분류하는 알고리즘이다. 아래 이미지는 KNN의 이해를 돕기 위한 이미지이다. (이미지 출처 : INEED COFFEE) K가 3이라고 가정했을 때 별모양 데이터가 분류되는 방법으로 가장 가까운 데이터 3개를 보았을 때 A 클래스 1개, B 클래스가 2개 임으로 별모양 데이터는 B 그룹으로 분류된다. ※ 데이터 분류란 새로운 데이터를 기존 데이터.. 2023. 1. 18.
정규식을 이용한 데이터 전처리(문자만 남기기) 1. 글을 작성하게 된 계기 텍스트 데이터를 전처리 하다 보면 흔하게 문자만 남기거나 특정 문자를 삭제하는 등과 같은 데이터 전처리 작업이 필요한 경우들이 많다. 그래서 정규식을 이용해 데이터를 전처리 하는 방법에 대해서 정리하고자 글을 작성하게 되었다. 2. 정규식을 이용한 데이터 전처리 - 단일 변수일 경우(문자 외에 모두 제거) import re string = "abcdefㄱㄴㄷㄹㅁㅂ가나다라마바사12345[]{}().,!?'`~;:" re.sub('[^A-Za-z0-9가-힣]', '', string) #영어대문자,소문자,숫자,한글만 남기기 # Out[1]: 'abcdef가나다라마바사12345' import re def preprocessing_text(): s='韓子는 어렵고, 한글은 nice하다.. 2023. 1. 14.
ADsP 자격증 정리 및 후기 안녕하세요. 오늘 소개해드릴 자격증은 ADsP입니다! 데이터 관련 직무를 하시는 분들은 한 번쯤 들어보셨을 자격증이라고 생각합니다. 국가공인 데이터분석 준전문가(이하 ADsp)에 대한 시험주요 내용, 출제문항 및 배점, 응시자격 및 합격기준 등에 대해 소개하며 제가 공부하면서 공부했던 방법들에 대해서 소개해드리도록 하겠습니다. 저도 해당 자격증에 대해 전문가처럼 잘은 알지 못하지만 처음 이 자격증에 접하시는 분에게 조금이나마 도움 되었으면 하는 마음에 포스팅을 작성하게 되었습니다! ADsP 무슨 자격증인가? 자격증 정의 데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 .. 2023. 1. 13.
728x90
LIST