Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/27872
Título: | Descarga temporal de páginas web |
Autor(es): | Pereira, Pedro Vasco Neto |
Orientador(es): | Macedo, Joaquim |
Data: | 2013 |
Resumo(s): | There is a plethora of information inside the Web. Even the most famous commercial
search engines cannot download and index all available information. For
this reason, from the last years until now, there are several research works on the
design and implementation of focused crawlers in a particular topic, and also on
geographic scope crawlers.
Those who follow carefully the research on the area of Web crawling are witnessing
that the temporal dimension has not the importance it deserves in the
literature.In the opposite direction, there is an increasing interest on time dimension
in other areas of information retrieval namely retrieval models, result sets
presentation, clustering, classification, and others.
Therefore, the challenge we have set ourselves in this work, was to develop a
crawler whose purpose is to deal with time constraints. The importance of this dimension
is certainly quite amplified when combined with the topic or geography,
but now we wanted to study it in isolation.
The used approach is quite direct. It is based on an algorithm for temporal
segmentation ofWeb pages and follows links only in segments within the temporal
scope of the restriction.
This system is designed forWeb pages written in Portuguese though its design
philosophy can be applied to other languages.
In addition and for increase results effectiveness, the used algorithm prioritized
the downloading of pages with more links within the temporal scope. The
precision of results is around 75%. Existe uma infinidade de informações dentro da Web. Até mesmo os motores de busca mais famosos não podem descarregar e indexar toda a informação disponível. Por esta razão, desde há já alguns anos que há vários trabalhos de investigação sobre o desenho e implementação de robôs focados num tópico em particular mas também em robôs de âmbito geográfico. Aqueles que seguem com atenção a investigação na área de descargas Web podem constatar que a dimensão temporal não tem a importância que merece na literatura. Na direcção oposta, há um interesse crescente sobre a dimensão temporal em outras áreas da recolha de informação, nomeadamente modelos de recolha, apresentação de conjuntos de resultados, agrupamento, classificação entre outros. O desafio para que este trabalho aponta é desenvolver um robô cujo propósito seja lidar com as restrições temporais. A importância desta dimensão é certamente amplificada quando combinada com o tópico ou a geografia, mas agora apenas a iremos estudar isoladamente. A abordagem aplicada é muito directa. É baseada num algoritmo de segmentação temporal de textos e segue apenas as ligações em segmentos dentro do âmbito temporal imposto pela restrição. Este sistema está concebido para páginas Web em português, embora a sua filosofia possa ser aplicada a outras línguas. Além disso, e para melhorar os resultados, o algoritmo utilizado prioriza o descarregamento de páginas com mais ligações dentro do âmbito temporal. A precisão dos resultados ronda os 75%. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Engenharia Informática |
URI: | https://hdl.handle.net/1822/27872 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
eeum_di_dissertacao_pg20193.pdf | 664,81 kB | Adobe PDF | Ver/Abrir |