문장이든 이미지든 혹은 음성 데이터든 벡터로 표현만 할 수 있다면 데이터간 유사도를 구할 수 있습니다.
이때 sklearn의 CountVectorizer과 TfidfVectorizer를 사용합니다.
그 중 눈에 가는 두 매개변수가 있었는데요, 바로 min_df와 max_df입니다.
이번 포스팅에서는 이 2가지 인자에 대해 알아보도록 하겠습니다.
우선 max_df부터 살펴보겠습니다.
max_df는 특정 기준 이상 등장하는 단어를 제거하기 위해 사용합니다.
불용어 처리 기준을 설정하는 것과 같은 맥락입니다.
max_df=0.5는 문서의 50%를 초과하는 단어를 무시한다는 의미입니다.
max_df=30은 문서에서 30번을 초과해 등장한 단어를 무시한다는 의미입니다.
이처럼 float, int형으로 값을 넘길 수 있는데 전자는 비율을, 후자는 횟수로 이해할 수 있습니다.
디폴트 값은 1.0으로 어떤 단어도 무시하지 말라는 의미입니다.
min_df의 경우에도 마찬가지입니다.
min_df=0.02는 문서의 2% 미만인 단어는 무시한다는 의미입니다.
min_df=10은 문서에서 10번 미만 등장한 단어를 무시한다는 의미입니다.
디폴트 값은 1이며 어떤 단어도 무시하지 않는다는 의미입니다.
Understanding min_df and max_df in scikit CountVectorizer
I have five text files that I input to a CountVectorizer. When specifying min_df and max_df to the CountVectorizer instance what does the min/max document frequency exactly mean? Is it the frequenc...
stackoverflow.com
'파이썬・ML' 카테고리의 다른 글
Selenium, BeautifulSoup으로 무한스크롤 데이터 가져오기 (0) | 2023.09.05 |
---|---|
[ML]mlxtend 모듈로 결정 경계 확인하기 (0) | 2023.08.16 |
파이썬 문자열 함수 총정리 (0) | 2023.07.26 |
파이썬 딕셔너리 함수 총정리 (0) | 2023.07.26 |
파이썬 collections 모듈 Counter 사용하기 (0) | 2023.07.26 |