1. Agora vamos dá início ao segundo projeto. A diferença é que nesse projeto vamos importar um determinado artigo diretamente da internet.
  2. Para conseguir tal feito, vamos precisar utilizar a biblioteca Goose3. Por isso, execute o comando pip install goose3 no terminal.
  3. Pensando nisso, vamos criar o arquivo 2-analise_texto_web.py
from goose3 import Goose
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS
from PIL import Image
import numpy as np

# nltk.download('stopwords')

# 1 - Importando Artigo da Internet
g = Goose()
# url = 'https://blog.geekhunter.com.br/pretensao-salarial-disparidade-generos/'
url = 'https://olhardigital.com.br/2023/08/08/seguranca/google-chrome-vai-atualizar-sistema-mais-vezes-para-evitar-brechas-de-seguranca/'
artigo = g.extract(url)
print(artigo.publish_date)
print(artigo.title)
print(artigo.meta_description)
print(artigo.links)
print(artigo.cleaned_text)
4. Para executar o arquivo, podemos executar o comando python .\2-analise_texto_web.py