vectorizer

파이썬・ML

CountVectorizer, TfidfVectorizer의 min_df와 max_df 매개변수 이해하기

문장이든 이미지든 혹은 음성 데이터든 벡터로 표현만 할 수 있다면 데이터간 유사도를 구할 수 있습니다. 이때 sklearn의 CountVectorizer과 TfidfVectorizer를 사용합니다. 그 중 눈에 가는 두 매개변수가 있었는데요, 바로 min_df와 max_df입니다. 이번 포스팅에서는 이 2가지 인자에 대해 알아보도록 하겠습니다. 우선 max_df부터 살펴보겠습니다. max_df는 특정 기준 이상 등장하는 단어를 제거하기 위해 사용합니다. 불용어 처리 기준을 설정하는 것과 같은 맥락입니다. max_df=0.5는 문서의 50%를 초과하는 단어를 무시한다는 의미입니다. max_df=30은 문서에서 30번을 초과해 등장한 단어를 무시한다는 의미입니다. 이처럼 float, int형으로 값을 넘길 ..

truezero
'vectorizer' 태그의 글 목록