1. Nessa aula vamos aprender a quebrar o texto em partes menores. Essa técnica é chamada de Tokenização. E nessa aula, você vai aprender a tokenizar um texto por sentença e por palavras.
  2. Vamos precisar utilizar a biblioteca NLTK (Natural Language Toolkit). Para instalá-la execute o comando pip install nltk no terminal.
  3. Pensando nisso, vamos criar o arquivo 1-acessando_page.p y .
import os
import nltk
from nltk import sent_tokenize
from nltk import word_tokenize

# nltk.download('punkt')

# 1 - Importação do Texto
with open(os.path.join("data", "texto.txt"), "r", encoding="utf-8") as file:
    texto = file.read()
    print(texto)
    
# 2 - Tokenizando o Texto
sent_tokens = sent_tokenize(texto)
print(sent_tokens)
print(len(sent_tokens))

word_tokens = word_tokenize(texto)
print(word_tokens)
print(len(word_tokens))
4. Para executar o arquivo, podemos executar o comando python .\1-acessando_page.p y .