ATIVIDADE 1 – IA – PROCESSAMENTO DE LINGUAGEM NATURAL – 52_2025
“Em uma tradução literal, palavras de parada significam aqueles termos que não trazem sentido ao texto, ou seja, se as removemos, conseguiremos compreender o seu significado. Stopwords são palavras frequentemente filtradas em Processamento de Linguagem Natural. São termos comuns como ‘as’, ‘os’, ‘de’ e ‘para’. A realização de pré-processamento com stopwords, ou melhor, o processo de remoção de stopwords, é a tentativa de eliminar do texto o que não é conhecimento essencial. Uma lista de palavras a descartar, conhecida como stopwords ou stoplist, é criada. Estas são palavras vistas como irrelevantes na análise textual, geralmente por serem auxiliares ou conectivas, não expressando o cerne do conteúdo”
(Bertei et al., 2025, p. 66-67).
PROCESSAMENTO
Fonte: BERTEI, A. et al. Processamento de linguagem natural. Florianópolis: Arqué, 2025.
O pré-processamento textual é uma das etapas mais críticas do Processamento de Linguagem Natural (PLN), pois prepara os dados para que algoritmos possam compreender e analisar linguagem humana de forma eficiente. Uma das técnicas fundamentais desse processo é a remoção de stopwords, palavras de alto uso e baixo valor semântico, como preposições, artigos e conjunções. Essas palavras são úteis na comunicação humana, mas muitas vezes atrapalham a extração de significado nas análises automatizadas, especialmente em tarefas como classificação de texto, análise de sentimentos e mineração de tópicos.
Apesar de parecer simples, a definição do que deve ser considerado uma stopword depende do contexto da aplicação e exige decisões analíticas. Por exemplo, em uma análise jurídica, palavras como “considerando” ou “conforme” podem parecer irrelevantes, mas têm valor formal e estrutural. Já em uma análise de redes sociais, palavras emocionais como “mas” e “porém” podem indicar viradas no discurso e não deveriam ser removidas. Essa atividade propõe a você pensar como um especialista de PLN e tomar decisões estratégicas sobre como criar e aplicar uma lista de stopwords de forma lógica e adaptada a um problema real.
Imagine que você foi contratado por uma empresa para liderar a análise de comentários de clientes sobre um novo produto de tecnologia em redes sociais. Seu papel é preparar os textos para análise automatizada, decidindo que palavras devem ou não ser mantidas. Para isso, execute as tarefas a seguir, respondendo de forma prática, descritiva e fundamentada:
- a) Elabore uma pequena lista com pelo menos 8 stopwords que você eliminaria dos comentários analisados.
Justifique por que cada uma dessas palavras pode ser considerada irrelevante nesse contexto.
- b) Agora, cite 3 palavras que geralmente aparecem em listas de stopwords, mas que você optaria por manter nessa análise específica. Justifique por que essas palavras não devem ser descartadas, considerando o tipo de dado analisado (comentários sobre produto em redes sociais).
- c) Descreva como você aplicaria uma lógica de filtragem adaptativa para remover palavras irrelevantes sem comprometer o sentido emocional ou a intenção crítica dos textos dos usuários.
PROCESSAMENTO