IBM avanza en su proyecto de motor de b√ļsqueda

A IBM le gustar√≠a ver que su proyecto de supercomputaci√≥n WebFountain se convierta en el pr√≥ximo gran avance en la b√ļsqueda web.

Internet puede ser un tesoro de inteligencia empresarial, pero solo si puede dar sentido a los datos.

Junto con competidores como ClearForest, Fast Search and Transfer y Mindfabric, Big Blue espera fomentar la demanda de nuevos servicios de minería de datos que muestren significado y contexto, no solo listas de enlaces más o menos relevantes.

Es una tarea dif√≠cil, que est√° empujando los l√≠mites del dise√Īo de supercomputaci√≥n y ampliando las expectativas en cuanto a lo que puede lograr el poder de procesamiento sin procesar cuando se configura para trabajar en la biblioteca de documentos m√°s grande del mundo. Los motores de b√ļsqueda tradicionales como Google ya tienen dificultades para hacer coincidir los t√©rminos de b√ļsqueda con p√°ginas web espec√≠ficas. Ahora WebFountain y otros proyectos asumir√°n una tarea que es exponencialmente m√°s compleja.

‚ÄúLa b√ļsqueda est√° tratando de encontrar la mejor p√°gina sobre un tema. WebFountain quiere encontrar la tendencia “, dijo Dan Gruhl, arquitecto jefe del proyecto en el Centro de Investigaci√≥n Almaden de IBM en el sur de San Jos√©, California. Aprovechar los datos de Internet para encontrar significado es un ideal visionario de b√ļsqueda en la Web que a√ļn no se ha logrado. Sin embargo, a medida que m√°s compa√Ī√≠as administran sus negocios en la Web, los analistas predicen que buscar√°n extraer valor de sus bits y bytes, y muchas compa√Ī√≠as de software ahora est√°n examinando formas de aportarles ese valor.

ANUNCIO

CONTINUAR LEYENDO ABAJO

IBM espera sacar provecho de la tendencia con el proyecto WebFountain de cuatro a√Īos de antig√ľedad, que ahora est√° llegando a la mayor√≠a de edad. Es una plataforma de investigaci√≥n ambiciosa que se basa en los datos estructurados y no estructurados de la Web, as√≠ como en el almacenamiento y la capacidad computacional, y la experiencia inform√°tica de IBM.

Si WebFountain puede entregar hoy, el problema que espera resolver tiene atracciones particulares para IBM. Big Blue ha estado impulsando un nuevo modelo de negocio inform√°tico en el que los clientes alquilar√≠an la potencia de procesamiento de un proveedor central en lugar de comprar su propio hardware y software. WebFountain encaja perfectamente con este modelo inform√°tico de utilidad. IBM espera utilizar el proyecto para crear una plataforma que otros desarrolladores de software interesados ‚Äč‚Äčen aprovechar las capacidades de miner√≠a de datos utilizar√≠an como back-end.

En una de las primeras aplicaciones p√ļblicas de la tecnolog√≠a, IBM se asoci√≥ el martes con el proveedor de software Semagix para ofrecer un sistema contra el lavado de dinero para instituciones financieras, con Citibank como su primer cliente.

ANUNCIO

CONTINUAR LEYENDO ABAJO

Las dos compa√Ī√≠as han estado trabajando juntas durante meses para desarrollar una aplicaci√≥n que ayude a los bancos a identificar sospechosos que intentan legitimar fondos robados. Esos esfuerzos est√°n de acuerdo con la Ley Patriota de los Estados Unidos, promulgada hace dos a√Īos para combatir el terrorismo.

El sistema WebFountain-Semagix automatiza un proceso que previamente recayó en los hombros de los oficiales de cumplimiento, que comparan manualmente el nombre de una persona con las listas de sospechosos conocidos.

“Esta es una soluci√≥n de TI cl√°sica”, dijo el presidente de WebFountain, Rob Carlson. “No est√° reemplazando a las personas, sino que organiza informaci√≥n no estructurada de la Web hasta el punto de que pueden ver lo que es importante en lugar de examinar una gran cantidad de datos e intentar averiguar qui√©n est√° relacionado con qui√©n”.

En una se√Īal de una creciente demanda de filtros de lavado de dinero entre los bancos, Fast Search and Transfer anunci√≥ recientemente que las instituciones financieras podr√≠an crear una aplicaci√≥n similar, y se dice que Cap Gemini es el primer cliente, seg√ļn los analistas.

Un mercado en r√°pido crecimiento.
WebFountain tiene sus raíces en la Universidad de Stanford y otra herramienta de investigación innovadora, Google. Sus orígenes se encuentran en un artículo académico sobre minería de texto, escrito conjuntamente por investigadores en el sitio Almaden de IBM y en Stanford, que analiza una idea conocida como centros y autoridades.

Esa teor√≠a sugiere que la mejor manera de encontrar informaci√≥n en la Web es mirar los sitios y p√°ginas web m√°s grandes y populares. Los hubs, por ejemplo, generalmente se definen como portales web y comunidades de expertos. Del mismo modo, el concepto de autoridades se basa en la identificaci√≥n de las p√°ginas web m√°s importantes, incluida la observaci√≥n del n√ļmero y la influencia de otras p√°ginas que enlazan con ellas. El √ļltimo concepto se refleja en el algoritmo principal de Google, llamado PageRank.

IBM aplicó los mismos conceptos en un proyecto inicial de minería de datos web llamado Clever, pero las deficiencias eventualmente llevaron a los investigadores a poner de cabeza la teoría de los centros y las autoridades. En resumen, IBM descubrió que podía excavar datos más interesantes de páginas que la teoría de los centros y las autoridades normalmente llevaban al fondo de las páginas no estructuradas, como paneles de discusión, registros web, grupos de noticias y otras páginas. Con esa idea, nació WebFountain.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“Estamos viendo … las p√°ginas sucias de bajo nivel”, dijo Gruhl. Los analistas dijeron que esperan ver una creciente demanda de las corporaciones por servicios que extraen los llamados datos no estructurados en la Web. Seg√ļn un estudio realizado por investigadores de la Universidad de California en Berkeley, la Web est√°tica tiene aproximadamente 167 terabytes de datos. En contraste, la Web profunda tiene entre 66,800 y 91,850 terabytes de datos.

La prestaci√≥n de servicios para la gesti√≥n de informaci√≥n no estructurada es un mercado estimado de $ 6.46 mil millones este a√Īo y una industria de $ 9.72 mil millones para 2006, seg√ļn una investigaci√≥n de IDC.

Cualquier duda sobre la escala de potencia de procesamiento requerida para abordar esta tarea se disipa rápidamente con una visita a la granja de servidores de WebFountain, ubicada en el Centro de Investigación Almaden de IBM.

La compa√Ī√≠a emplea a unos 200 investigadores en ocho laboratorios de investigaci√≥n en todo el mundo, incluidos India, Nueva York y Beijing. Pero el latido de la operaci√≥n est√° aqu√≠.

Después de despejar un punto de control de seguridad cerrado, los huéspedes siguen un largo camino de entrada a un edificio de oficinas de baja altura de la década de 1960 escondido detrás de colinas y parques sobre Silicon Valley.

ANUNCIO

CONTINUAR LEYENDO ABAJO

El zumbido constante de los fan√°ticos indica la presencia de algo grande en el pasillo.

Un cl√ļster principal consta de 32 bastidores de ocho servidores con procesadores duales Intel Xeon de 2.4GHz, capaces de escribir 10GB de datos por segundo en el disco. Cada rack tiene 5 terabytes de almacenamiento, para un total de 40 terabytes para el sistema.

El cl√ļster central es compatible con dos cl√ļsteres adyacentes de 64 procesadores dobles que manejan tareas auxiliares. Un banco rastrea la Web, indexando alrededor de 250 millones de p√°ginas por semana, mientras que el otro maneja las consultas.

Los tres grupos juntos actualmente ejecutan un total de 768 procesadores, y ese n√ļmero est√° creciendo r√°pidamente.

Este a√Īo, el cl√ļster y el almacenamiento migrar√°n a los servidores Blade, lo que ahorrar√° espacio y proporcionar√° un total de 896 procesadores para la miner√≠a de datos y 256 para el almacenamiento. En total, el sistema agregar√° 1.152 procesadores, lo que le permitir√° recolectar y almacenar hasta 8 mil millones de p√°ginas web en 24 horas.

Al igual que los motores de b√ļsqueda web, WebFountain se puede utilizar para tratar de encontrar una aguja en un pajar, pero a diferencia de la b√ļsqueda web, est√° dise√Īada para analizar e identificar tendencias o responder inc√≥gnitas como “¬ŅCu√°l es mi reputaci√≥n corporativa?”

ANUNCIO

CONTINUAR LEYENDO ABAJO

Eso va mucho m√°s all√° de las capacidades de los motores de b√ļsqueda web desarrollados por empresas como Google, Inktomi y Fast Search and Transfer. Estos productos generalmente recorren la Web para encontrar los documentos que mejor se ajustan a una consulta determinada, generalmente analizan enlaces a p√°ginas web importantes o coinciden con fragmentos de texto similares. Con estos y otros m√©todos, la b√ļsqueda permite a las personas navegar, localizar o reubicar informaci√≥n y obtener informaci√≥n de fondo sobre un tema.

Por el contrario, WebFountain de IBM quiere ayudar a encontrar significado en el exceso de datos en línea. Se basa en la minería de texto, o lo que se llama procesamiento de lenguaje natural (PNL). Mientras indexa las páginas web, etiqueta todas las palabras en una página, examina su estructura inherente y analiza su relación entre sí. El proceso es muy similar a diagramar una oración en quinto grado, pero en una escala masiva. La minería de texto extrae bloques de datos, sustantivos-verbos-sustantivos y los analiza para mostrar relaciones causales.

WebFountain promete combinar su inteligencia con herramientas de visualizaci√≥n para trazar las tendencias de la industria o identificar un conjunto de rivales emergentes para una empresa en particular. La plataforma podr√≠a usarse para analizar informaci√≥n financiera en un lapso de cinco a√Īos para ver si la econom√≠a est√° creciendo, por ejemplo. O podr√≠a usarse para ver listados de trabajo para identificar tendencias emergentes en el empleo.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“La Web se ha convertido en un gran tabl√≥n de anuncios, y si puedes ver eso con el tiempo y ver c√≥mo han cambiado las cosas, responde a la pregunta, ‘¬ŅDime qu√© est√° pasando?'”, Dijo Sue Feldman, analista de la firma de investigaci√≥n de mercado IDC. “Esto busca la estructura predecible en el texto, y la usa tal como lo hace la gente, para hacer un an√°lisis, clasificar la informaci√≥n y comprenderla”.

Sin duda, algunos cr√≠ticos dicen que WebFountain y otros proyectos a√ļn tienen un largo camino por recorrer para demostrar que pueden cumplir sus ambiciosas promesas.

“IBM est√° tratando de desatar este ca√Ī√≥n de 20 a√Īos de investigaci√≥n; es un arma grande y agradable, pero en algunos casos puede ser inadecuado para la tarea”, dijo Jim Pitkow, presidente de la compa√Ī√≠a de b√ļsqueda Adem√°s, que tiene un acuerdo con IBM rival de Microsoft. Argument√≥ que es posible que las empresas no necesiten rastrear 3.000 millones de p√°ginas para hacer un an√°lisis de su reputaci√≥n corporativa o efectividad de marketing en l√≠nea, porque muchas p√°ginas no abordan el tema.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“Detectar autom√°ticamente el sentimiento es algo complicado”, dijo Pitkow. IBM dice que el servicio WebFountain ya ha arrojado algunos resultados prometedores en las primeras pruebas, se√Īalando la investigaci√≥n de mercado de 2002 realizada en nombre del conglomerado petrolero British Petroleum como un ejemplo revelador.

BP ya sab√≠a que los precios del gas y los lavados de autos son las principales preocupaciones de los clientes mientras est√°n en la bomba. Pero al descubrir noticias de una peque√Īa estaci√≥n de servicio en el √°rea de Chicago que cre√≥ √°reas de “aterrizaje policial” para los agentes de polic√≠a, WebFountain llam√≥ la atenci√≥n sobre otra preocupaci√≥n del consumidor: el crimen. Ahora BP est√° explorando planes para mejorar la seguridad en sus estaciones, regalando caf√©, donas y conexiones a Internet para atraer a los agentes de polic√≠a.

Otros desarrollos de WebFountain incluyen una aplicaci√≥n que debutar√° este verano de Factiva, una compa√Ī√≠a de recuperaci√≥n de informaci√≥n propiedad de Dow Jones y Reuters. Factiva obtuvo la licencia de WebFountain en septiembre y ha estado creando software para sentarse en la parte superior de la plataforma y medir la reputaci√≥n corporativa.

En una era de esc√°ndalos corporativos y competencia feroz, medir la percepci√≥n p√ļblica podr√≠a convertirse en un foco clave de muchas empresas. Seg√ļn Gruhl, al menos una compa√Ī√≠a que ha probado WebFountain ha nombrado a un oficial de reputaci√≥n corporativa.

ANUNCIO

CONTINUAR LEYENDO ABAJO

“El problema siempre ha sido la dificultad de realizar una extracci√≥n sistem√°tica de una gran cantidad de datos y distinguir lo importante de lo trivial”, dijo Charles Frombrun, director ejecutivo del Instituto de Reputaci√≥n.

“Si la empresa funciona”, dijo Frombrun, “deber√≠a haber mucho que aprender combinando datos retrospectivos de fuentes impresas con datos emergentes de an√°lisis web”.

Gracias a Monica ofAdvertorial.org por el consejo.