2008/11/03

¿Tiempos de recesión, tiempos de búsqueda?

En estos tiempos de crisis, a borde ya de una recesión de proporciones mundiales, no deja de llamar la atención que el mercado de software de tecnologías de búsqueda no se va a resentir tanto como otros sectores de TIC según explica el nuevo estudio de IDC "Worldwide Search and Discovery Software 2008-2012 Forecast Update and Vendor Shares: Bloom Amid Economic Gloom" que se reseña aquí. Para el mercado de buscadores, se espera un crecimiento del 17% para 2008 y del 12,9% para 2009.

Quizá lo más destacado para Bitext es este fragmento de la reseña: "Text analytics vendors as a group will continue to see even faster growth than the search market. Hot areas include sentiment extraction, eDiscovery, geolocation, and language modules".

Bitext de hecho ya ha iniciado sus primeros pasos en el área de "sentiment extraction". Stay tuned!

2008/03/04

Informe Telefónica sobre Sociedad de la Información

Según recoge el informe

LA SOCIEDAD DE LA INFORMACIÓN EN ESPAÑA 2007

publicado por la Fundación Telefónica, la tecnología de análisis de lenguaje natural se convierte en una ventaja competitiva esencial.

El informe dice:

"Lenguaje natural: la opinión generalizada apunta a que quien sea capaz de ofrecer una razonable interpretación del lenguaje natural adquirirá una enorme ventaja competitiva y un gran atractivo para sus usuarios."

Nos alegramos, esto indica que esta tecnología da el salto y se convierte en una necesidad para cualquier aplicación que quiera liderar mercados.

2008/01/15

El asistente analfabeto

Hace unos días, el Ministerio de Sanidad español y Microsoft presentaron Robin, un "robot que informa a los jóvenes a través de Messenger sobre enfermedades de transmisión sexual y consumo de alcohol".

Sin embargo, se encontraron con bastantes problemas. El robot, al acceder a través del Messenger, invita a los usuarios a expresarse de manera coloquial. Sin embargo, no es capaz de comprender consultas bastante sencillas y escritas de forma correcta, como "¿Puedo dejar embarazada a mi novia con un beso?" o "¿Puedo emborracharme con cerveza?".

Nos encontramos con el mismo caso que en anteriores ocasiones: servicios que pretenden comunicarse con las personas invitándoles a usar sus propias palabras, y sin embargo no utilizan tecnología de lenguaje natural. ¿Irá cambiando la tendencia?

2007/10/19

Invitación: Lenguaje natural y Web semántica, en el SIMO 2007

Estimados amigos de Buscarama:

En nombre de las empresas Bitext y iSOCO nos es grato invitaros a asistir gratuitamente a nuestra ponencia sobre "Lenguaje natural y web semántica, nuevas formas de acceso a la información", que realizaremos el próximo martes día 6 de Noviembre dentro del programa del SIMO 2007.

Como ya sabrás, la edición del SIMO de este año cuenta con un apartado especial sobre la Web 2.0 enfocado a explicar cómo esta nueva forma de entender la tecnología puede aportar grandes ventajas mediante el esfuerzo colaborativo de los usuarios de Internet.

Pero para conseguir que todos hablemos el mismo idioma en Internet y conseguir así la comprensión no sólo entre personas sino también entre máquinas, es necesario incorporar unas reglas de acceso a la información que faciliten que todos podamos entenderla independientemente de cómo ésta se exprese.

Es en este marco donde el uso del Lenguaje Natural y la Web Semántica cobran especial relevancia, pues ofrecen las soluciones adecuadas para acceder a la información de forma fácil y efectiva.

Desde Bitext e iSOCO hemos implantado ya soluciones exitosas en este campo, tales como pueden ser el caso del Ayuntamiento de Zaragoza o el del Real Instituto Elcano entre otros. En esta conferencia les presentaremos estos casos, las facilidades que ofrecemos a los usuarios y las herramientas que hacen posible estos servicios. Además les presentaremos ideas de futuro sobre la aplicación práctica de estas tecnologías, tales como los asistentes o avatares virtuales.

Será para nosotros un placer contar con su asistencia. Recuerde que aunque el evento es gratuito, el aforo es limitado, por lo que deben confirmar su asistencia dirigiéndose a la organización del SIMO, que podrán encontrar en los siguientes vínculos. Si precisan cualquier aclaración, por favor no duden en ponerse en contacto con nosotros. En caso de no poder asistir pero está interesado en recibir una copia de la presentación, escríbanos a info@bitext.com o marketing@isoco.com

Información y registros:

-Información General: http://web20simo.youlivek.com/pages/index/40-programa?lang=es

-Registros: http://web20simo.youlivek.com/members/new

En la confianza de contar con su asistencia, reciba un cordial saludo


Antonio S. Valderrábanos, Director General de Bitext
Pedro Solís, Director de Marketing y Comunicación de iSOCO

2007/10/05

Difusas

Se conoce como "búsqueda difusa" ("fuzzy search") a aquellas búsquedas que permiten recuperar términos que coinciden en un tanto por ciento elevado con los términos de la consulta. Se utiliza bastante como forma rápida de prevenir errores ortográficos. La consulta "Shakspeare", en una búsqueda difusa, reconocería "Shakespeare", por ejemplo.

A veces también se utiliza como sustituto de los lematizadores: dado que entre "casa" y "casas" hay una diferencia de solo un carácter, la búsqueda difusa permitiría encontrar ambas con una sola consulta.

Pero el problema es que también encontraría "cara", "cosa" y "masa", que difieren igualmente en un solo carácter. Esta impredecibilidad, debida al hecho de que no utiliza ningún tipo de conocimiento lingüístico, hace que normalmente genere más ruido que beneficio.

Esto ocurre, por ejemplo, en el buscador de un importante ayuntamiento de España. Una aplicación demasiado laxa de la búsqueda difusa hace que, preguntando en su buscador por "intensidad media diaria", nos devuelva artículos que contienen estas palabras... o alguna parecida. Así, el usuario recibe resultados como "medidas homologadas" y "medios personales" (en vez de "media", que es lo que se buscó), o "por razones de interés público" e "intereses de demora" (en vez de "intensidad").

Y sin embargo, dada la falta de conocimiento lingüístico del buscador, las respuestas que contienen "intensidades medias diarias", frase totalmente relevante, aparecen en su mayoría al final de los resultados.

Las soluciones "difusas" son imaginativas, y en determinados contextos pueden ser útiles. Pero parece claro que no pueden sustituir a las expansiones "que saben de lo que hablan", esto es, las basadas en lenguaje natural.

2007/09/26

Brecha digital y tecnología lingüística

Hemos publicado recientemente un artículo sobre cómo la tecnología de análisis de lenguaje natural puede resolver el problema de la brecha digital, en particular, el de la usabilidad y accesibilidad de de las fuentes de información. En resumen: si buscamos una Administración Electrónica próxima al ciudadano, necesitamos que las aplicaciones que emplee esta Administración Electrónica (portales, buscadores...) entiendan el lenguaje del ciudadano.

2007/09/25

Otra vez con Gartner

Acaba de ser publicado un nuevo "Gartner Magic Quadrant" relativo a las Tecnologías de Acceso a la Información (otro nombre para el "Information Retrieval" o el "Search Technologies" de antaño).

Gartner ofrece un resumen del Gartner Magic Quadrant for Information Access Technology, 2007. En él podemos encontrar cosas interesantes relacionadas con las búsquedas y el lenguaje natural.

Vemos que dtSearch, comparado con 2005, ha mejorado mucho sus posiciones en el eje "completeness of vision", situándose ya en la frontera entre "niche players" y "visionaries".

Sólo en unos pocos casos se menciona el lenguaje natural como clave para estos buscadores. Aparece como novedad Consona (antes M2M), y vuelve InQuira. En otras herramientas como Progress Software se mencionan las "plain language queries" (que parece un eufemismo para "natural language queries". En cualquier caso, parece que en 2007 aún no se ha dado el salto hacia estas tecnologías. El número de referencias de 2007 es el mismo que ya había en 2005, aunque han cambiado algunos protagonistas. Las espadas, pues, siguen en alto.

2007/09/24

Políticos que sudan en Sudán

Si queremos explorar un poco las áreas en las que los sistemas actuales de búsqueda pueden mejorar, probemos a buscar cosas como

"políticos Sudán"

para informarnos sobre los personajes políticos más destacados en ese país.

El buscador líder del mercado y preferido por los usuarios, nos da como segundo documento relevante

Los políticos no sudan - http://www.escolar.net/MT/archives/2005/08/los_politicos_n.html

¿La razón? La mayoría de los buscadores actuales ignora la valiosísima información que las mayúsculas o los acentos proporcionan a nuestro lenguaje. De ahí que "Sudán" y "sudan" sean lo mismo para un buscador.

Y no se trata de un hecho aislado, lo mismo sucede con la "n" y la "ñ", para los buscadores "cana" y "caña" son lo mismo (para Google, Yahoo y Live). Hemos preferido no hacer experimentos con "cono".

Dados los ingentes recursos que los buscadores dedican actualmente a indexar la web, no debe ser excesivamente costoso comenzar a tomar en consideración este tipo de información. Hecha queda la petición.

Más ejemplos de mejoras que pueden emprender los buscadores en “Pida tres deseos, me dijo el Genio del Buscador”, en http://www.baquia.com/noticias.php?id=10092.

2007/05/25

Bitext en Fesabid - Presentaciones en la red

La empresa de lenguaje natural Bitext participó en la última edición de las Jornadas Españolas de Documentación Fesabid.

Antonio Valderrábanos fue uno de los ponentes de la actividad principal de las Jornadas: la mesa redonda "El futuro de los buscadores: nuevas tendencias en recuperación de información".

Ya están disponibles las presentaciones para descargar desde la página de Fesabid.

Desde Bitext agradeceremos cualquier comentario sobre la presentación, tanto de los asistentes a las Jornadas como de quienes no pudieron acudir.

Interesante artículo de José Ramón Agüera

José Ramón Agüera acaba de publicar en el observatorio de biblioteconomía, documentación e información ThinkEpi el siguiente artículo:

La nueva generación de motores de búsqueda, basados en procesamiento de lenguaje natural.