Tahap pertama dalam memproses dataset teks untuk membuat model untuk NLP (Natural Language Processing) adalah Tokenisasi.
Tokenisasi adalah proses mengubah dataset teks ke dalam bentuk angka yang merupakan representasinya.
Model Machine Learning hanya dapat menerima input data dalam bentuk angka atau integer