O que são dados não estruturados? Considera-se como tal tudo o que são dados não organizados numa estrutura rígida, como texto, vídeo ou fotos. Até há alguns anos a esta parte extrair informação destas fontes era algo muito complexo e sobretudo moroso. No entanto, com os avanços tecnológicos dos últimos anos, seja ao nível dos algoritmos e técnicas, ou do poder computacional, esta tarefa ficou bastante mais facilitada. Hoje em dia, classificar os segmentos de um vídeo, identificar/catalogar imagens ou extrair informação de textos é algo que é relativamente comum. No entanto, só as universidades, centros de investigação ou grandes empresas é que estão a tirar partido dessa revolução tecnológica, porque, muitas vezes, simplesmente não existe sequer conhecimento por parte das pequenas e médias empresas de tal possibilidade.
Para alertar para o potencial destas tecnologias e métodos, e principalmente para o seu impacto no turismo e na hotelaria, vou iniciar com este post um conjunto de publicações sobre o Processamento de Linguagem Natural (PLN), uma das áreas com maior crescimento hoje em dia.
De um modo simplista, pode-se dizer que o PLN é uma subárea da inteligência artificial, que tem como objetivo permitir aos computadores compreender e processar linguagens humanas. Esta compreensão e processamento são normalmente divididos num conjunto de tarefas que por vezes são aplicadas em conjunto, nomeadamente:
-
Análise de sentimento: permite analisar a polaridade de sentimento num texto (sentimento negativo ou positivo);
-
Análise de similaridade: permite comparar a semelhança entre textos;
-
Coerência textual: permite analisar e estudar a coerência da escrita de um texto;
-
Conversão texto para voz e voz para texto: permite converter gravações de voz em texto e vice-versa;
-
Extração de terminologia: permite extrair termos específicos de uma área com base em textos dessa mesma área;
-
Geração de texto: permite criar textos automaticamente;
-
Identificação de entidades: permite identificar entidades num texto (sem prévio conhecimento dos nomes ou tipo das entidades);
-
Identificação de tópicos: permite identificar tópicos endereçados por um conjunto de textos;
-
Ligação de entidades: permite identificar as ligações entre entidades com base num conjunto de textos;
-
Tradução automática: permite traduzir textos automaticamente;
-
Sumarização automática de textos: permite sumariar textos de grande dimensão em poucos parágrafos ou frases;
-
Entre muitas outras.
Nesta sequência, o próximo post será dedicado a alguns exemplos do potencial do PLN no turismo e hotelaria, começando pela análise de sentimentos e extração de terminologia aplicada aos comentários publicados por clientes de hotéis nos diversos websites para o efeito. Com estes exemplos, ser-nos-á possível perceber que a informação extraída dos textos de milhares de comentários online é muito mais rica e com potencial de ser acionável em termos de gestão do que a informação extraída dos ratings desses comentários.