IBM avanza en su proyecto de motor de búsqueda

A IBM le gustaría ver que su proyecto de supercomputación WebFountain se convierta en el próximo gran avance en la búsqueda web.

Internet puede ser un tesoro de inteligencia empresarial, pero solo si puede dar sentido a los datos.

Junto con competidores como ClearForest, Fast Search and Transfer y Mindfabric, Big Blue espera fomentar la demanda de nuevos servicios de minería de datos que muestren significado y contexto, no solo listas de enlaces más o menos relevantes.

Es una tarea difícil, que está empujando los límites del diseño de supercomputación y ampliando las expectativas en cuanto a lo que puede lograr el poder de procesamiento sin procesar cuando se configura para trabajar en la biblioteca de documentos más grande del mundo. Los motores de búsqueda tradicionales como Google ya tienen dificultades para hacer coincidir los términos de búsqueda con páginas web específicas. Ahora WebFountain y otros proyectos asumirán una tarea que es exponencialmente más compleja.

“La búsqueda está tratando de encontrar la mejor página sobre un tema. WebFountain quiere encontrar la tendencia “, dijo Dan Gruhl, arquitecto jefe del proyecto en el Centro de Investigación Almaden de IBM en el sur de San José, California. Aprovechar los datos de Internet para encontrar significado es un ideal visionario de búsqueda en la Web que aún no se ha logrado. Sin embargo, a medida que más compañías administran sus negocios en la Web, los analistas predicen que buscarán extraer valor de sus bits y bytes, y muchas compañías de software ahora están examinando formas de aportarles ese valor.

ANUNCIO

CONTINUAR LEYENDO ABAJO

IBM espera sacar provecho de la tendencia con el proyecto WebFountain de cuatro años de antigüedad, que ahora está llegando a la mayoría de edad. Es una plataforma de investigación ambiciosa que se basa en los datos estructurados y no estructurados de la Web, así como en el almacenamiento y la capacidad computacional, y la experiencia informática de IBM.

Si WebFountain puede entregar hoy, el problema que espera resolver tiene atracciones particulares para IBM. Big Blue ha estado impulsando un nuevo modelo de negocio informático en el que los clientes alquilarían la potencia de procesamiento de un proveedor central en lugar de comprar su propio hardware y software. WebFountain encaja perfectamente con este modelo informático de utilidad. IBM espera utilizar el proyecto para crear una plataforma que otros desarrolladores de software interesados ​​en aprovechar las capacidades de minería de datos utilizarían como back-end.

En una de las primeras aplicaciones públicas de la tecnología, IBM se asoció el martes con el proveedor de software Semagix para ofrecer un sistema contra el lavado de dinero para instituciones financieras, con Citibank como su primer cliente.

ANUNCIO

CONTINUAR LEYENDO ABAJO

Las dos compañías han estado trabajando juntas durante meses para desarrollar una aplicación que ayude a los bancos a identificar sospechosos que intentan legitimar fondos robados. Esos esfuerzos están de acuerdo con la Ley Patriota de los Estados Unidos, promulgada hace dos años para combatir el terrorismo.

El sistema WebFountain-Semagix automatiza un proceso que previamente recayó en los hombros de los oficiales de cumplimiento, que comparan manualmente el nombre de una persona con las listas de sospechosos conocidos.

“Esta es una solución de TI clásica”, dijo el presidente de WebFountain, Rob Carlson. “No está reemplazando a las personas, sino que organiza información no estructurada de la Web hasta el punto de que pueden ver lo que es importante en lugar de examinar una gran cantidad de datos e intentar averiguar quién está relacionado con quién”.

En una señal de una creciente demanda de filtros de lavado de dinero entre los bancos, Fast Search and Transfer anunció recientemente que las instituciones financieras podrían crear una aplicación similar, y se dice que Cap Gemini es el primer cliente, según los analistas.

Un mercado en rápido crecimiento.
WebFountain tiene sus raíces en la Universidad de Stanford y otra herramienta de investigación innovadora, Google. Sus orígenes se encuentran en un artículo académico sobre minería de texto, escrito conjuntamente por investigadores en el sitio Almaden de IBM y en Stanford, que analiza una idea conocida como centros y autoridades.

Esa teoría sugiere que la mejor manera de encontrar información en la Web es mirar los sitios y páginas web más grandes y populares. Los hubs, por ejemplo, generalmente se definen como portales web y comunidades de expertos. Del mismo modo, el concepto de autoridades se basa en la identificación de las páginas web más importantes, incluida la observación del número y la influencia de otras páginas que enlazan con ellas. El último concepto se refleja en el algoritmo principal de Google, llamado PageRank.

IBM aplicó los mismos conceptos en un proyecto inicial de minería de datos web llamado Clever, pero las deficiencias eventualmente llevaron a los investigadores a poner de cabeza la teoría de los centros y las autoridades. En resumen, IBM descubrió que podía excavar datos más interesantes de páginas que la teoría de los centros y las autoridades normalmente llevaban al fondo de las páginas no estructuradas, como paneles de discusión, registros web, grupos de noticias y otras páginas. Con esa idea, nació WebFountain.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“Estamos viendo … las páginas sucias de bajo nivel”, dijo Gruhl. Los analistas dijeron que esperan ver una creciente demanda de las corporaciones por servicios que extraen los llamados datos no estructurados en la Web. Según un estudio realizado por investigadores de la Universidad de California en Berkeley, la Web estática tiene aproximadamente 167 terabytes de datos. En contraste, la Web profunda tiene entre 66,800 y 91,850 terabytes de datos.

La prestación de servicios para la gestión de información no estructurada es un mercado estimado de $ 6.46 mil millones este año y una industria de $ 9.72 mil millones para 2006, según una investigación de IDC.

Cualquier duda sobre la escala de potencia de procesamiento requerida para abordar esta tarea se disipa rápidamente con una visita a la granja de servidores de WebFountain, ubicada en el Centro de Investigación Almaden de IBM.

La compañía emplea a unos 200 investigadores en ocho laboratorios de investigación en todo el mundo, incluidos India, Nueva York y Beijing. Pero el latido de la operación está aquí.

Después de despejar un punto de control de seguridad cerrado, los huéspedes siguen un largo camino de entrada a un edificio de oficinas de baja altura de la década de 1960 escondido detrás de colinas y parques sobre Silicon Valley.

ANUNCIO

CONTINUAR LEYENDO ABAJO

El zumbido constante de los fanáticos indica la presencia de algo grande en el pasillo.

Un clúster principal consta de 32 bastidores de ocho servidores con procesadores duales Intel Xeon de 2.4GHz, capaces de escribir 10GB de datos por segundo en el disco. Cada rack tiene 5 terabytes de almacenamiento, para un total de 40 terabytes para el sistema.

El clúster central es compatible con dos clústeres adyacentes de 64 procesadores dobles que manejan tareas auxiliares. Un banco rastrea la Web, indexando alrededor de 250 millones de páginas por semana, mientras que el otro maneja las consultas.

Los tres grupos juntos actualmente ejecutan un total de 768 procesadores, y ese número está creciendo rápidamente.

Este año, el clúster y el almacenamiento migrarán a los servidores Blade, lo que ahorrará espacio y proporcionará un total de 896 procesadores para la minería de datos y 256 para el almacenamiento. En total, el sistema agregará 1.152 procesadores, lo que le permitirá recolectar y almacenar hasta 8 mil millones de páginas web en 24 horas.

Al igual que los motores de búsqueda web, WebFountain se puede utilizar para tratar de encontrar una aguja en un pajar, pero a diferencia de la búsqueda web, está diseñada para analizar e identificar tendencias o responder incógnitas como “¿Cuál es mi reputación corporativa?”

ANUNCIO

CONTINUAR LEYENDO ABAJO

Eso va mucho más allá de las capacidades de los motores de búsqueda web desarrollados por empresas como Google, Inktomi y Fast Search and Transfer. Estos productos generalmente recorren la Web para encontrar los documentos que mejor se ajustan a una consulta determinada, generalmente analizan enlaces a páginas web importantes o coinciden con fragmentos de texto similares. Con estos y otros métodos, la búsqueda permite a las personas navegar, localizar o reubicar información y obtener información de fondo sobre un tema.

Por el contrario, WebFountain de IBM quiere ayudar a encontrar significado en el exceso de datos en línea. Se basa en la minería de texto, o lo que se llama procesamiento de lenguaje natural (PNL). Mientras indexa las páginas web, etiqueta todas las palabras en una página, examina su estructura inherente y analiza su relación entre sí. El proceso es muy similar a diagramar una oración en quinto grado, pero en una escala masiva. La minería de texto extrae bloques de datos, sustantivos-verbos-sustantivos y los analiza para mostrar relaciones causales.

WebFountain promete combinar su inteligencia con herramientas de visualización para trazar las tendencias de la industria o identificar un conjunto de rivales emergentes para una empresa en particular. La plataforma podría usarse para analizar información financiera en un lapso de cinco años para ver si la economía está creciendo, por ejemplo. O podría usarse para ver listados de trabajo para identificar tendencias emergentes en el empleo.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“La Web se ha convertido en un gran tablón de anuncios, y si puedes ver eso con el tiempo y ver cómo han cambiado las cosas, responde a la pregunta, ‘¿Dime qué está pasando?'”, Dijo Sue Feldman, analista de la firma de investigación de mercado IDC. “Esto busca la estructura predecible en el texto, y la usa tal como lo hace la gente, para hacer un análisis, clasificar la información y comprenderla”.

Sin duda, algunos críticos dicen que WebFountain y otros proyectos aún tienen un largo camino por recorrer para demostrar que pueden cumplir sus ambiciosas promesas.

“IBM está tratando de desatar este cañón de 20 años de investigación; es un arma grande y agradable, pero en algunos casos puede ser inadecuado para la tarea”, dijo Jim Pitkow, presidente de la compañía de búsqueda Además, que tiene un acuerdo con IBM rival de Microsoft. Argumentó que es posible que las empresas no necesiten rastrear 3.000 millones de páginas para hacer un análisis de su reputación corporativa o efectividad de marketing en línea, porque muchas páginas no abordan el tema.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“Detectar automáticamente el sentimiento es algo complicado”, dijo Pitkow. IBM dice que el servicio WebFountain ya ha arrojado algunos resultados prometedores en las primeras pruebas, señalando la investigación de mercado de 2002 realizada en nombre del conglomerado petrolero British Petroleum como un ejemplo revelador.

BP ya sabía que los precios del gas y los lavados de autos son las principales preocupaciones de los clientes mientras están en la bomba. Pero al descubrir noticias de una pequeña estación de servicio en el área de Chicago que creó áreas de “aterrizaje policial” para los agentes de policía, WebFountain llamó la atención sobre otra preocupación del consumidor: el crimen. Ahora BP está explorando planes para mejorar la seguridad en sus estaciones, regalando café, donas y conexiones a Internet para atraer a los agentes de policía.

Otros desarrollos de WebFountain incluyen una aplicación que debutará este verano de Factiva, una compañía de recuperación de información propiedad de Dow Jones y Reuters. Factiva obtuvo la licencia de WebFountain en septiembre y ha estado creando software para sentarse en la parte superior de la plataforma y medir la reputación corporativa.

En una era de escándalos corporativos y competencia feroz, medir la percepción pública podría convertirse en un foco clave de muchas empresas. Según Gruhl, al menos una compañía que ha probado WebFountain ha nombrado a un oficial de reputación corporativa.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“El problema siempre ha sido la dificultad de realizar una extracción sistemática de una gran cantidad de datos y distinguir lo importante de lo trivial”, dijo Charles Frombrun, director ejecutivo del Instituto de Reputación.

“Si la empresa funciona”, dijo Frombrun, “debería haber mucho que aprender combinando datos retrospectivos de fuentes impresas con datos emergentes de análisis web”.

Gracias a Monica ofAdvertorial.org por el consejo.