K
KRYFT Problem Bank
AI/ML 어려움 코딩

TF-IDF 구현

TF-IDF 벡터화 알고리즘 직접 구현

40분
85점
#3708

문제 설명

문서 집합에 대한 TF-IDF(Term Frequency-Inverse Document Frequency) 벡터화를 구현하세요.

TF-IDF 공식

TF(t, d) = (문서 d에서 단어 t의 출현 횟수) / (문서 d의 총 단어 수)

IDF(t, D) = log(총 문서 수 / 단어 t가 포함된 문서 수)

TF-IDF(t, d, D) = TF(t, d) × IDF(t, D)

요구사항

  • 전처리: 소문자 변환, 특수문자 제거
  • 불용어(stopwords) 제거 옵션
  • n-gram 지원 (unigram, bigram)
  • 희소 행렬(sparse matrix) 반환

평가 기준

  • 수식 정확성
  • 메모리 효율성
  • scikit-learn과 결과 비교
실행 버튼을 눌러 코드를 실행하세요.