A aula começou com a Análise de Cluster, uma tarefa de aprendizado não supervisionado que visa agrupar indivíduos semelhantes em grupos distintos. O algoritmo K-Means foi o principal método apresentado, buscando minimizar a soma dos quadrados intragrupos, ou seja, tornar os grupos internamente homogêneos e externamente heterogêneos. Um desafio chave é determinar o número ideal de grupos (K), para o qual foram discutidos os métodos do cotovelo e da silhueta. A interpretação dos clusters criados envolve estatísticas descritivas e a análise da importância das variáveis, inclusive usando árvores de classificação.
Em seguida, foi introduzida a Análise de Componentes Principais (PCA), focada na redução da dimensionalidade dos dados e na identificação de fatores latentes ou subjacentes. A PCA transforma as variáveis originais em novas variáveis (componentes principais) que são combinações lineares das originais e explicam a maior parte da variância dos dados. A escolha do número de componentes é feita através de um Scree Plot, observando a variância explicada acumulada. A interpretação dos componentes se dá pela análise dos “pesos” (carregamentos) das variáveis originais em cada componente, revelando as variáveis que se agrupam para formar cada fator latente.
Resumo Expandido
A aula foi estruturada para cobrir as etapas finais do curso, focando primeiramente na Análise de Cluster e, posteriormente, na Análise de Componentes Principais (PCA).
Análise de Cluster:
- Definição e Aplicação: É uma tarefa comum de aprendizado não supervisionado, utilizada para segmentar clientes, separar músicas, vídeos, entre outros. O objetivo é agrupar indivíduos semelhantes de forma que os membros de um grupo sejam mais parecidos entre si do que com membros de outros grupos.
- Algoritmo K-Means: É um algoritmo popular e amplamente utilizado para análise de cluster. A intuição é que cada indivíduo deve pertencer ao grupo com a média mais próxima dele, daí o “MINS” de média no nome. A técnica visa minimizar a soma de quadrados dentro de cada grupo.
- Funcionamento do K-Means (Algoritmo de Refinamento):
- Inicialização: Define-se um número K de grupos e as médias (centroides) são propostas aleatoriamente.
- Agrupamento (Assignação): Cada observação é agrupada ao centroide mais próximo, geralmente utilizando a distância euclidiana.
- Atualização: Recalcula-se a média (centroide) para cada um dos K grupos formados.
- Iteração: Os passos de agrupamento e atualização são repetidos até que a soma de quadrados intragrupos seja minimizada ou um critério de parada seja satisfeito (ex: a soma não diminui mais). O resultado são grupos internamente homogêneos e externamente heterogêneos.
- Dados para Análise de Cluster: Normalmente utiliza-se variáveis contínuas, embora seja possível trabalhar com categóricas. O exemplo prático utilizou indicadores de mercado de trabalho, renda e condições de moradia de estados brasileiros do IPEA Data.
- Pré-processamento: É usual realizar a normalização dos dados (subtrair a média e dividir pelo desvio padrão), fazendo com que as variáveis fiquem com média zero e variância um, padronizando-as para a mesma escala.
- Determinação do Número de Grupos (K): Este é o desafio mais difícil na análise de cluster.
- Método do Cotovelo: Plota-se a soma de quadrados intracluster em função do número de grupos (K). Espera-se que a soma diminua rapidamente e depois comece a decair mais lentamente, formando um “cotovelo” no gráfico. O ponto do cotovelo sugere o K ideal.
- Método da Silhueta: Utiliza o coeficiente de silhueta, que varia de -1 a 1. Valores próximos de 1 indicam pontos bem agrupados dentro de seu cluster. Valores negativos sugerem que o ponto deveria estar em outro cluster ou que a divisão não foi boa. A interpretação dos gráficos de silhueta também é utilizada para inferir o K.
- Avaliação e Interpretação dos Clusters:
- Como não há supervisão, a avaliação é baseada no sentido prático dos agrupamentos.
- Análise Descritiva dos Grupos: Observa-se os estados ou indivíduos que caíram em cada grupo e realizam-se estatísticas descritivas (ex: boxplots comparativos) das variáveis para entender o perfil de cada grupo.
- Visualização: Gráficos de dispersão com variáveis usadas na clusterização, colorindo os pontos pelos grupos, ajudam a visualizar a separação.
- Árvore de Classificação: Uma técnica recomendada para ajudar na interpretação é treinar uma árvore de classificação para prever os rótulos dos clusters que foram criados. Isso ajuda a identificar quais variáveis foram mais importantes para o algoritmo na criação das divisões, permitindo entender o “porquê” da clusterização.
Análise de Componentes Principais (PCA):
- Conceito e Objetivo: A PCA busca reduzir a dimensionalidade dos dados, partindo do pressuposto de que muitas variáveis observadas (ex: taxa de participação, nível de ocupação) podem estar refletindo uma mesma condição subjacente ou “latente” (ex: mercado de trabalho) que não é diretamente mensurável. A ideia é transformar um conjunto grande de variáveis correlacionadas em um conjunto menor de novas variáveis não correlacionadas, chamadas componentes principais.
- Funcionamento: Os componentes principais são combinações lineares das variáveis originais. Cada componente é uma soma ponderada das variáveis originais (ex:
PC1 = C1*X1 + C2*X2 + ...
).
- Pré-processamento: Assim como na clusterização, a normalização dos dados é usual antes de aplicar a PCA para evitar problemas de escala.
- Determinação do Número de Fatores Latentes (Componentes):
- Scree Plot: Um gráfico que mostra a proporção da variância explicada por cada componente principal. A “regra do cotovelo” também é aplicada aqui: procura-se o ponto onde a variância explicada adicionada pelos componentes seguintes diminui significativamente.
- Outro critério é buscar um número de componentes que explique uma porcentagem acumulada satisfatória da variância total (ex: 70% ou mais).
- Interpretação dos Componentes:
- A interpretação se dá analisando os “pesos” ou “carregamentos” (coeficientes C1, C2, etc.) de cada variável original na formação de cada componente. Variáveis com pesos altos (em valor absoluto) contribuem mais para aquele componente.
- Essa análise permite agrupar as variáveis que contribuem para um mesmo fator latente. Por exemplo, no caso dos dados de estados, um componente principal (PC1) poderia ser associado à “empregabilidade” (variáveis como taxa de participação, nível de ocupação, formalidade) e outro (PC2) à “vulnerabilidade” (desocupação, subemprego, moradia cedida).
- Os valores dos componentes para cada observação podem ser usados como índices ou ranqueadores em relação a esses fatores latentes.
Termos Técnicos
- Análise de Cluster (Clusterização): Uma tarefa de aprendizado não supervisionado que tem como objetivo agrupar indivíduos semelhantes em conjuntos chamados “clusters” ou “grupos”, de forma que os indivíduos dentro de um grupo sejam mais parecidos entre si do que com indivíduos de outros grupos.
- Análise de Componentes Principais (PCA): Uma técnica estatística utilizada para reduzir a dimensionalidade de um conjunto de dados, transformando um grande número de variáveis correlacionadas em um número menor de novas variáveis não correlacionadas, chamadas componentes principais, que representam os fatores latentes subjacentes aos dados.
- Aprendizado Não Supervisionado: Um tipo de aprendizado de máquina onde o modelo aprende padrões em dados sem rótulos ou uma variável-alvo predefinida, como é o caso da Análise de Cluster.
- CAMINS (K-Means): Um algoritmo de clusterização muito popular e utilizado, que agrupa indivíduos semelhantes minimizando a soma de quadrados intragrupos. O “MINS” no nome se refere à ideia de média (mean).
- Características: Atributos ou variáveis que descrevem as unidades de análise (indivíduos, pessoas, estados, etc.) em um conjunto de dados.
- Carregamentos (Pesos): Na Análise de Componentes Principais, são os coeficientes que indicam a contribuição ou importância de cada variável original na formação de um componente principal.
- Centroide: A média de todas as observações (pontos) que pertencem a um determinado grupo (cluster). É o “ponto central” do grupo.
- Coeficiente de Silhueta: Uma métrica utilizada para avaliar a qualidade de uma clusterização. Varia de -1 a 1, onde valores próximos de 1 indicam pontos bem agrupados dentro de seu cluster, próximos de 0 indicam pontos ambíguos, e negativos sugerem que o número de clusters pode estar incorreto.
- Critério de Parada: Uma condição que, ao ser satisfeita, interrompe o processo iterativo de um algoritmo, como no K-Means, onde o processo para quando a soma de quadrados intragrupos não diminui mais.
- Distância Euclidiana: Uma medida de distância comum utilizada em algoritmos de clusterização para calcular a “proximidade” entre dois pontos em um espaço multidimensional.
- Fatores Latentes: Conceitos ou traços subjacentes não diretamente observáveis que são refletidos por um conjunto de variáveis medidas. A PCA busca identificar esses fatores latentes.
- Heurística: Um tipo de algoritmo que, embora não tenha um modelo estatístico formal por trás, fornece uma solução prática e geralmente boa para um problema, como é o caso do K-Means.
- Hiperparâmetro (K): Um parâmetro de um algoritmo que deve ser definido antes do treinamento do modelo. No K-Means, o número de grupos (K) é um hiperparâmetro que precisa ser escolhido pelo usuário.
- Indivíduos Semelhantes: Observações ou unidades de análise que compartilham características ou atributos em comum, sendo o objetivo da clusterização agrupá-los.
- Matriz de Confusão: Uma tabela utilizada para avaliar o desempenho de um modelo de classificação, comparando as classes reais com as classes previstas. No contexto de clusterização, pode ser usada para verificar como uma árvore de classificação consegue prever os clusters criados.
- Média (MINS): O valor central ou representativo de um grupo. No K-Means, o algoritmo busca fazer com que cada indivíduo pertença ao grupo com a média mais próxima dele.
- Método do Cotovelo: Uma técnica para determinar o número ideal de clusters (K) em que se plota a soma de quadrados intracluster em função de K, buscando um ponto no gráfico onde a taxa de diminuição da variância explicada se altera significativamente, formando uma “curva” ou “cotovelo”.
- Normalização (Padronização): Processo de reescalonar variáveis para que fiquem na mesma escala, geralmente subtraindo a média e dividindo pelo desvio padrão, resultando em média zero e variância um. É usual em técnicas de aprendizado não supervisionado para evitar que variáveis com escalas maiores dominem a análise.
- Scree Plot: Um gráfico usado na Análise de Componentes Principais para visualizar a proporção da variância explicada por cada componente principal, ajudando a decidir quantos componentes reter.
- Soma de Quadrados Intragrupo (Intracluster): Uma medida da variabilidade ou dispersão dos pontos dentro de um mesmo cluster. O objetivo do K-Means é minimizar essa soma, tornando os grupos mais homogêneos internamente.
- Variância Explicada: A proporção da variância total nos dados que é capturada ou “explicada” por um componente principal. Na PCA, o primeiro componente explica a maior parte da variância, e os seguintes explicam parcelas menores.