AI/ML
어려움
코딩
TF-IDF 구현
TF-IDF 벡터화 알고리즘 직접 구현
40분
85점
#3708
문제 설명
문서 집합에 대한 TF-IDF(Term Frequency-Inverse Document Frequency) 벡터화를 구현하세요.
TF-IDF 공식
TF(t, d) = (문서 d에서 단어 t의 출현 횟수) / (문서 d의 총 단어 수) IDF(t, D) = log(총 문서 수 / 단어 t가 포함된 문서 수) TF-IDF(t, d, D) = TF(t, d) × IDF(t, D)
요구사항
- 전처리: 소문자 변환, 특수문자 제거
- 불용어(stopwords) 제거 옵션
- n-gram 지원 (unigram, bigram)
- 희소 행렬(sparse matrix) 반환
평가 기준
- 수식 정확성
- 메모리 효율성
- scikit-learn과 결과 비교
실행 버튼을 눌러 코드를 실행하세요.