- Voltar ao início »
- Agrupamento de Dados , Clustering , Mineração de Dados , Restrições »
- Agrupamento Semi-Supervisionado
Postado por: Unknown
sexta-feira, 10 de janeiro de 2014
Na
área de Mineração de Dados o agrupamento,
ou clustering
como é mais conhecido, é a tarefa de agrupar um conjunto de dados em subconjuntos
que possuam algum grau de similaridade, de forma que, os dados pertencentes ao
mesmo grupo tenham características semelhantes. Esse processo pode ser
realizado basicamente de três formas:
- agrupamento supervisionado, em que se conhece os rótulos dos dados a partir de um conhecimento de domínio, também conhecido como classificação;
- agrupamento não-supervisionado, no qual não se tem nenhuma ideia sobre o conjunto de dados, e que o processo agirá sem qualquer conhecimento prévio para criar uma quantidade x de grupos;
- agrupamento semi-supervisionado é o método mais recente entre os três, e tem sido um tópico bastante abordado nos últimos anos, ele funciona com uma pequena quantidade de informação a priori sobre os dados.
As
informações utilizadas pelo agrupamento semi-supervisionado podem ser
representadas de duas maneiras: rótulos em parte dos dados ou restrições. Na
primeira, uma pequena quantidade do conjunto de dados é rotulada e servirá como
uma base de treinamento para que posteriormente o resto dos dados do conjunto
sejam agrupados com base nesse pequeno conjunto inicial. Na segunda, a
informação a priori é representada por restrições, a qual funciona
principalmente entre dois tipos: must-link
– indica que dois elementos do conjunto de dados devem pertencer ao mesmo grupo;
e cannot-link – indica que dois
elementos do conjunto não podem pertencer ao mesmo grupo.
A
figura abaixo mostra um conjunto de dados representado em um espaço euclidiano,
em que a distância entre dois elementos diz o quanto eles são similares, isto é,
quanto mais distantes dois elementos estão no plano, mais diferentes eles são. Os
atributos relevantes dos dados para a representação no espaço são o peso e a
altura. As linhas contínuas entre dois elementos representam uma restrição must-link, e as linhas pontilhadas entre
dois elementos representam uma restrição cannot-link.
Perceba
que a informação contida nas restrições (lado direito da figura) altera uma
forma intuitiva de agrupamento que seria feita por um processo
não-supervisionado (lado esquerdo da figura).
Dentre
os vários exemplos de utilização desse processo de agrupamento
semi-supervisionado, trago aqui um dos mais comuns apresentados em trabalhos
científicos. Suponha uma base de dados com milhares de imagens sobre um
determinado domínio, por exemplo, animais. Agora imagine que nessas imagens possuam
animais de todos os possíveis tipos e você deseja agrupá-las de alguma forma,
mas não tem ideia de quantos grupos possam existir nesse conjunto ou de como
poderá agrupá-las. Uma ideia para resolver esse problema, usada por alguns
autores na literatura, seria dividir esse processo em duas etapas:
- Realizar um processo totalmente não supervisionado, como uma espécie de pré-processamento dos dados, para que sejam criados uma determinada quantidade x de grupos preliminares.
- A partir daí, o usuário ou especialista do domínio entra em cena para verificar a corretude desses grupos, dizendo, por exemplo, se duas imagens devem pertencer a aquele grupo (must-link) ou se duas imagens não podem pertencer ao mesmo grupo (cannot-link). Logo após ter inserido uma quantidade satisfatória (ao usuário) de conhecimento, é realizado o processo de agrupamento novamente, mas agora levando em consideração as restrições inferidas pelo usuário, e assim sucessivamente até que se tenha chegado a um resultado satisfatório.
Além disso, podem ser criadas restrições em relação aos grupos, por exemplo, o usuário pode dizer que uma determinada imagem não pode pertencer a um certo grupo, cria-se então uma restrição entre um elemento e um grupo. Isso só foi mencionado para mostrar que podem existir vários tipos de restrições com vários conceitos diferentes, mas isso é um assunto para um próximo post.
Espero
que tenham gostado e para finalizar a minha primeira postagem nesse blog peço
que entrem em contato a qualquer dúvida, não deixe de comentar, com dicas,
críticas (construtivas de preferência) ou sugestões.