Postado por: Unknown sexta-feira, 10 de janeiro de 2014


Na área de Mineração de Dados o agrupamento, ou clustering como é mais conhecido, é a tarefa de agrupar um conjunto de dados em subconjuntos que possuam algum grau de similaridade, de forma que, os dados pertencentes ao mesmo grupo tenham características semelhantes. Esse processo pode ser realizado basicamente de três formas:

  1. agrupamento supervisionado, em que se conhece os rótulos dos dados a partir de um conhecimento de domínio, também conhecido como classificação;
  2. agrupamento não-supervisionado, no qual não se tem nenhuma ideia sobre o conjunto de dados, e que o processo agirá sem qualquer conhecimento prévio para criar uma quantidade x de grupos;
  3. agrupamento semi-supervisionado é o método mais recente entre os três, e tem sido um tópico bastante abordado nos últimos anos, ele funciona com uma pequena quantidade de informação a priori sobre os dados.

As informações utilizadas pelo agrupamento semi-supervisionado podem ser representadas de duas maneiras: rótulos em parte dos dados ou restrições. Na primeira, uma pequena quantidade do conjunto de dados é rotulada e servirá como uma base de treinamento para que posteriormente o resto dos dados do conjunto sejam agrupados com base nesse pequeno conjunto inicial. Na segunda, a informação a priori é representada por restrições, a qual funciona principalmente entre dois tipos: must-link – indica que dois elementos do conjunto de dados devem pertencer ao mesmo grupo; e cannot-link – indica que dois elementos do conjunto não podem pertencer ao mesmo grupo.

A figura abaixo mostra um conjunto de dados representado em um espaço euclidiano, em que a distância entre dois elementos diz o quanto eles são similares, isto é, quanto mais distantes dois elementos estão no plano, mais diferentes eles são. Os atributos relevantes dos dados para a representação no espaço são o peso e a altura. As linhas contínuas entre dois elementos representam uma restrição must-link, e as linhas pontilhadas entre dois elementos representam uma restrição cannot-link.


Perceba que a informação contida nas restrições (lado direito da figura) altera uma forma intuitiva de agrupamento que seria feita por um processo não-supervisionado (lado esquerdo da figura).

Dentre os vários exemplos de utilização desse processo de agrupamento semi-supervisionado, trago aqui um dos mais comuns apresentados em trabalhos científicos. Suponha uma base de dados com milhares de imagens sobre um determinado domínio, por exemplo, animais. Agora imagine que nessas imagens possuam animais de todos os possíveis tipos e você deseja agrupá-las de alguma forma, mas não tem ideia de quantos grupos possam existir nesse conjunto ou de como poderá agrupá-las. Uma ideia para resolver esse problema, usada por alguns autores na literatura, seria dividir esse processo em duas etapas:

  1. Realizar um processo totalmente não supervisionado, como uma espécie de pré-processamento dos dados, para que sejam criados uma determinada quantidade x de grupos preliminares.
  2. A partir daí, o usuário ou especialista do domínio entra em cena para verificar a corretude desses grupos, dizendo, por exemplo, se duas imagens devem pertencer a aquele grupo (must-link) ou se duas imagens não podem pertencer ao mesmo grupo (cannot-link). Logo após ter inserido uma quantidade satisfatória (ao usuário) de conhecimento, é realizado o processo de agrupamento novamente, mas agora levando em consideração as restrições inferidas pelo usuário, e assim sucessivamente até que se tenha chegado a um resultado satisfatório.

Além disso, podem ser criadas restrições em relação aos grupos, por exemplo, o usuário pode dizer que uma determinada imagem não pode pertencer a um certo grupo, cria-se então uma restrição entre um elemento e um grupo.  Isso só foi mencionado para mostrar que podem existir vários tipos de restrições com vários conceitos diferentes, mas isso é um assunto para um próximo post.

Espero que tenham gostado e para finalizar a minha primeira postagem nesse blog peço que entrem em contato a qualquer dúvida, não deixe de comentar, com dicas, críticas (construtivas de preferência) ou sugestões. 

Comente

Postagens Populares

Colaboradores

Tecnologia do Blogger.

- Copyright © Quase Mestre -Metrominimalist- Powered by Blogger - Designed by Johanes Djogan -