Recuperacion y Organizacion de la InformacionMotores de recuperacion de documentos XML/RDF |
Los servidores de ontologías y otras herramientas relacionadas con meta información en ocasiones necesitan recuperar informacion que describe recursos en el web. El estándar actual sobre cómo hacer sentencias acerca de recursos web es XML/RDF (RDF viene de Resource Description Framework), y hay algunos estándares más que se sitúan por encima de XML/RDF, por ejemplo, RDFS y OIL. Sin embargo, puede que necesitemos utilidades para la recuperacion de documentos XML/RDF por todo internet. Estas utilidades se denominan motores de recuperacion de documentos XML/RDF.
Los motores de recuperacion de documentos XML/RDF/RSS son herramientas que descagan fragmentos interconectados de documentos XML/RDF/RSS de internet y construyen una base de conocimiento con estos datos. En cada fase de recuperacion de documentos XML/RDF/RSS se mantiene una lista de URIs a recuperar así como condiciones de filtrado de URIs (por ejemplo, profundidad o sintáxis de la URI), la cual es observada mientras se descargan interactivamente recursos que contienen documentos XML/RDF/RSS. Para facilitar el embebimiento en otras herramientas, los motores de recuperacion de documentos XML/RDF/RSS proporcionan interfaces programables de alto nivel (API de Java). Los motores de recuperacion de documentos XML/RDF/RSS son simplemente un envoltorio alrededor de estas APIs - tanto una aplicación de consola, como una aplicación de ventanas o un servlet.
Mucha gente se refiere, equivocadamente, a la recuperacion de documentos XML/RDF (RSS) como "búsqueda en blogs". Aunque es cierto que muchos blogs ofrecen documentos XML/RDF (RSS feeds) —la creación automática de feeds es una característica de muchos software de blogs—, no todos los blogs ofrecen documentos XML/RDF (RSS feeds). Más aún, los documentos XML/RDF (RSS) pueden literalmente usarse con prácticamente cualquier tipo de contenido web. Los documentos XML/RDF (RSS) son, fundamentalmente, una especificación relativamente simple que usa XML para organizar y formatear contenido web de una manera estándar.
Aunque podría decirse que los blogs conforman la mayoría de los documentos XML/RDF (RSS), muchos sitios de noticias también sindican contenido via documentos XML/RDF (RSS)— for ejemplo, Search Engine Watch está disponible via RSS feeds.
Pero los documentos XML/RDF (RSS) se estan usando cada vez más para otros tipos de contenido. Por ejemplo, se pueden conseguir documentos XML/RDF (RSS feeds) con predicción meteorológica, compañía de noticias e información financiera, seguimiento de paquetes y muchos más. Incluso el venerable Directorio Yahoo está disponible ahora a través de documentos XML/RDF (RSS feeds).
Aunque existen literalmente millones de documentos XML/RDF (RSS), encontrar aquellos que son interesantes y relevantes para uno no siempre es fácil. Los principales motores de recuperacion de documentos se estan interesando por la recuperacion de documentos XML/RDF (RSS), pero aún ninguno ofrece un servicio robusto. Y mientras que existen algunos motores de recuperacion de documentos XML/RDF (RSS) más pequeños y especializados, su falta de recursos y los problemas del spam en blogs y feeds provoca que los resultados de sus búsquedas sean, con frecuencia, inútiles. Así que, la recuperacion de documentos XML/RDF (RSS) relevantes, por lo menos en estos tiempos, a menudo se reduce a una cuestión de prueba y error.
En esta sección se hace un repaso a los motores de recuperacion de documentos XML/RDF más conocidos de la esfera blog. Si desea una lista exhaustiva, consulte la lista RSS search services de Peter Scott en su sitio RSS Compendium.
Bloglines, perteneciente a Ask Jeeves, es tanto uno de los motores de recuperacion de documentos XML/RDF/RSS como un lector/agregador de feeds. Un menú desplegable situado justo a continuación del formulario de búsqueda nos permite buscar por todos los documentos XML/RDF (blogs) que tiene indexados, sólo los blogs a los que se estamos suscritos, todo el web (via Ask Jeeves) o añadir un documento XML/RDF (feed) a nuestra suscripción.
La página de búsqueda avanzada de Bloglines nos proporciona capacidades básicas basadas en formularios y también proporciona filtros para ordenar los resultados en función de su popularidad o fecha, para buscar todos los blogs, sólo aquellos pertenecientes a nuestra suscripción o excluir los blogs a los que estamos suscritos al buscar.
Bloglines tiene otras muchas características para leer documentos XML/RDF (feeds) y gestionar suscripciones.
Aunque BlogPulse es conocido principalmente como una herramienta para seguir tendencias y temas populares en la blogosfera, también tiene uno de los buenos motores de recuperacion de documentos XML/RDF (feeds), y dependiendo de si nos creemos los números, tiene también uno de los índices más grandes de documentos XML/RDF de entre todos los motores de recuperacion de documentos XML/RDF.
La página de búsqueda avanzada de BlogPulse proporciona búsquedas de frases, todas las palabras o alguno de los filtros de palabras, e incluso nos permite crear nuestras propias consultas booleanas de formulario libre. Podemos también limitar los resultados a contenidos publicados dentro de un rango de fechas particular, y ordenar los resultados por fecha o relevancia.
Daypop fue uno de los primeros motores de recuperacion de documentos XML/RDF (feeds/blogs), recibiendo honorables menciones en los premios Search Engine Watch en 2001 y 2002. Un buscador para todo, Daypop no parece tener el momento que tuvo en su dia, por lo menos si lo comparamos con servicios similares. La entrevista de Gary Price con Dan Chan, fundador y propietario de Daypop, proporciona una vista fascinante entre los bastidores del servicio.
La página de búsqueda avanzada de Daypop proporciona filtros básicos de fechas, pero también nos permite limitar los resultados a un idioma o país particular, algo que la mayoía de los motores de recuperacion de documentos XML/RDF no soporta.
Feedster ofrece un número interesante de características, tales como la capacidad de suscribirse a una búsqueda y guardarla como un documento XML/RDF (feed), o enviarnos los resultados por email. Feedster también nos permite buscar tanto por elementos dentro de documentos XML/RDF (feeds) como por documentos XML/RDF en sí mismos, en lugar de realizar una búsqueda completa por texto. Para encontrar documentos XML/RDF (feeds), podemos introducir palabras clave, URLs o una combinación de ambas.
La página de búsqueda avanzada de Feedster ofrece la capacidad de limitar la búsqueda a sólo ciertos documentos XML/RDF (feeds) o colecciones de documentos XML/RDF (feeds). Adicionalmente, se pueden filtrar ciertos documentos XML/RDF (feeds) incluyendo el nuestro propiamente.
Findory es una herramienta de búsqueda de noticias que tiene una pestaña separada para documentos XML/RDF (blogs). La página principal de Blogory se parece mucho a Google news, con recortes de prensa de los "mejores blogs" y enlaces a blogs organizados por categorías.
Blogory no ofrece búsquedas avanzadas para documentos XML/RDF (blogs), pero proporciona documentos XML/RDF (RSS feeds) personalizados y adaptativos que encuentran blogs automáticamente por nosotros basandose en nuestros intereses y en otros blogs que hemos leido. Para saber más sobre cómo funciona esto, vea la historia en SearchDay All the News That's Fit For You.
Gigablast es uno de los motores web de búsqueda pero también es uno de los motores de recuperacion de documentos XML/RDF (blogs). De los motores de recuperacion de documentos XML/RDF (blogs) el de Gigablast está en fase beta, pero la calidad de sus resultados estan a la par de, sino mejor que, los resultados que se obtienen con otros motores de recuperacion de documentos XML/RDF. Aunque no hay una búsqueda avanzada explícita para documentos XML/RDF (blogs), se puede usar la página principal de búsqueda avanzada para acotar los resultados.
Gigablast también ofrece un servicio de feeds de documentos XML/RDF que permite crear nuestros propios documentos XML/RDF (feeds) basados en los resultados de Gigablast. Es una característica un poco geek, pero si queremos seguir los resultados en el tiempo usando Gigablast merece la pena investigar.
Como Gigablast, IceRocket ofrece varios tipos de resultados de búsquedas, incluyendo web, noticias, imágenes y otros. Su página de búsqueda avanzada de blogs proporciona filtros tanto básicos booleanos como por rango de fechas, y ofrece también la capacidad de buscar mensajes enviados por un autor determinado, algo que no se encuentra en otros motores de recuperacion de documentos XML/RDF.
IceRocket anunció recientemente que iba a cambiar su nombre por BlogScour. No se pronunció sobre si los otros servicios de búsquedas continuarian siendo mantenidos.
De entre todos los motores de recuperacion de documentos XML/RDF analizados aquí, PubSub es único, por un par de razones. Primero, no se busca directamente en PubSub. En su lugar, creamos suscripciones para los términos de búsqueda en los que estamos interesados, y PubSub en respuesta nos entrega alertas cuandoquiera que se encuentre un nuevo contenido para nuestras suscripciones. Las alertas pueden entregarse via email, SMS, PDA/dispositivos móviles y mensajería instantánea.
La segunda diferencia de PubSub es que es uno de los motores de recuperacion de documentos XML/RDF "en tiempo real", lo que significa que recibiremos las alertas casi instantáneamente después de que el contenido se haya publicado. Hay más información de PubSub en el artículo de SearchDay Managing the Firehose of Real-Time Information.
Technorati nos permite buscar por palabras clave, URL o etiquetas. Podemos acceder a todos estos tipos de búsquedas a través de un formulario de búsqueda único e introduciendo la consulta en el recuadro apropiado.
También merece la pena consultar la lista de Technorati de las populares historias de noticias, libros, películas y los 100 mejores blogs, las cuales estan constantemente actualizadas.
¿Qué pasa con los grandes buscadores? Aún estan tanteando la recuperacion de documentos XML/RDF/RSS, pero ninguno ha lanzado todavía un servicio completo de recuperacion de documentos XML/RDF.
Ask Jeeves, como se ha dicho, posee a Bloglines, y en conversaciones que se han mantenido con varios mienmbros clave está claro que la recuperacion de documentos XML/RDF/RSS es importante para la compañía. Mientras que Bloglines se expande para incluir capacidades de búsqueda tipo Teoma, o Ask obtiene dinero de los documentos XML/RDF/RSS de Bloglines la valentía aún está por ver.
Google permite buscar documentos XML/RDF (RSS feeds), pero tenemos que optar por crear página personalizada, pulsar en el enlace "create a section" (crear una sección) y sólo entonces veremos un formulario de búsqueda para encontrar documentos XML/RDF (feeds). También estan los indocumentados filtros filetype:rss y filetype:xml, los cuales pueden usarse desde cualquiera de los recuadros de búsqueda de Google. El nuevo Google Desktop Search 2 tiene una característica auto-descubridora para documentos XML/RDF (RSS feeds).
Caundo Google compró Blogger en Febrero de 2003 la compañía sentenció que la recuperacion de documentos XML/RDF (blogs) estaba definitivamente en camino. Aunque Google continúa en silencio sobre sus planes de recuperacion de documentos XML/RDF/RSS, está claro que va a llegar, y probablemente más pronto que tarde.
MSN Search tampoco soporta recuperacion de documentos XML/RDF/RSS, pero Microsoft está también trabajando con la nueva tecnología. La página de comienzo experimental de MSN permite ahora añadir RSS feeds; Microsoft también presentó recientemente un salvapantallas con integración RSS.
Podría decirse que Yahoo es el que ha ido más lejos en recuperacion de documentos XML/RDF/RSS. La búsqueda avanzada de Yahoo permite limitar resultados a tipos de ficheros XML, RDF y RSS. Los feeds pueden también mostrarse en resultados de búsqueda generales, y podemos añadir feeds a nuestras páginas Mi Yahoo simplemente pinchando en el enlace Añadir a Mi Yahoo en un resultado de busqueda.
Se espera soporte completo para recuperacion de documentos XML/RDF/RSS por parte de los grandes buscadores para finales de año.
Acceda al Blog de "Motores de recuperacion de documentos XML/RDF" y comparta sus ideas.
Los documentos sobre motores de recuperacion de documentos XML/RDF/RSS en los que está basada esta página son:
Pagina creada por Wiki 3 para Recuperacion y Organizacion de la Informacion
Fecha ultima actualizacion: 30 de Abril de 2.006