"La tecnología que hemos desarrollado analiza textos como lo haría una persona"

Guillermo de Jorge-Botana<br />Investigador de Psicología de la Universidad Nacional de Educación a Distancia, UNED

Guillermo de Jorge-Botana es doctor en el área de ciencia cognitiva. Actualmente imparte clases e investiga en la Universidad Nacional de Educación a Distancia, UNED, en el departamento de Psicología Evolutiva y de la Educación, haciendo especial énfasis en los puntos de encuentro entre la psicología y las ciencias de la computación.

Para procesar el volumen de llamadas telefónicas de las grandes compañías, las centralitas cuentan con un sistema automatizado de atención al cliente que, con frecuencia exaspera al usuario. Guillermo de Jorge-Botana, investigador de Psicología de la UNED, junto a otro experto de la Universidad Autónoma de Madrid, desarrolla tecnologías semánticas basadas en la comprensión humana. Estas herramientas solucionan los problemas telefónicos y también, evalúan exámenes de manera automática o incluso miden el nivel de plagio entre textos.

1. Los modelos que desarrolláis están basados en la comprensión humana, ¿en qué consisten?

Son modelos que parten de la psicología cognitiva. De lo que se trata es de analizar los textos tal y como lo haría una persona, integrando lo que está explícito en un documento con el conocimiento previo. En psicología cognitiva se dice que lo leído en el texto se incorpora con los contenidos de la memoria a largo plazo mediante los mecanismos de la memoria operativa.

2. Y este principio lo aplicáis en uno de vuestros programas, denominado Gallito. ¿Cómo funciona?

Gallito es como una navaja suiza, hace muchas cosas. Primero convierte las palabras de los textos en números. A partir de aquí, se pueden realizar diferentes análisis. Lo más simple es comprobar cómo las palabras se parecen unas a otras, aunque también se pueden llevar a cabo tareas más complejas, como resumir un texto en sus ideas principales, medir la cantidad de información que tienen las palabras en los contextos en los que aparecen, hacer listados de las que más se parecen. Además, en el ámbito académico, Gallito preevalúa las respuestas de los exámenes siguiendo varios criterios: si la respuesta se corresponde con lo que se pregunta, si el texto guarda coherencia entre párrafos y frases que lo componen o si esa respuesta está plagiada de otras redactadas por otros alumnos.

3. ¿Por qué se llama Gallito?

Un amigo me comentó que una vez le preguntaron a Valle Inclán sobre algo de música y que él respondió: "yo solo sé de música lo que es el 'pasodoble de gallito' y lo que no es el 'pasodoble de gallito'". Y de ahí, el nombre. De todas formas, viene a cuento porque lo que hacen los gallos y las gallinas es picar el grano, y nuestro programa picotea el texto hasta que lo procesa.

4. Además de Gallito, tenéis un categorizador semántico, del que este programa forma parte. ¿Cómo funciona?

Sí, es un sistema que usa los componentes procesados por Gallito para categorizar llamadas telefónicas o correos electrónicos. El objetivo final es que, cuando tengas que hacer una llamada a un sistema de voz automatizado, puedas usar tu propio lenguaje sin necesidad de repetir palabras de un menú o pulsar teclas. El sistema en cuestión tiene el reto de reconocer lo que se ha dicho y digitalizarlo. Después, tiene que 'enrutarlo', que significa categorizarlo en un tema. Lo que hemos hecho nosotros es insertar la tecnología semántica de Gallito en el proceso de enrutamiento completo de una llamada.

5. ¿Y por qué abundan tanto los sistemas de 'pulse 1'?

Porque es lo más sencillo. El problema de decir frases a la máquina es el ruido ambiental y que las oraciones se pueden expresar de una forma muy variable. Por eso siempre va a haber una tasa de error, que se puede ir controlando a posteriori.

5. ¿Qué ventajas tiene vuestro programa?

Las tecnologías que hemos desarrollado son más flexibles y también más económicas. Estamos poniendo en el mercado un producto barato y que es muy flexible para todo tipo de sistemas.

6. ¿Por qué son caras las otras herramientas?

Porque suelen ser propietarias, es decir, tienes que pagar los derechos a grandes compañías. Además, no suelen ser tecnologías que usen todo con XML, un formato estándar.

7. ¿Quiénes están mostrando interés por vuestras aplicaciones: investigadores o empresas?

Respecto al enrutador, se han mostrado interesados proveedores de tecnología que quieren de abaratar costes en los servicios de telecomunicaciones que ofrecen a sus clientes. En cuanto a Gallito, vale para todos pero está teniendo muy buena acogida sobre todo entre los investigadores porque sirve para sus experimentos. El programa controla las palabras en algunas dimensiones. Por ejemplo, si quieres abstractas o concretas, polisémicas o monosémicas, la similitud que tienen unas con otras. Tiene utilidad en este campo pero también se puede utilizar para minería de datos textual.

8. ¿Para buscadores?

Sí, es más o menos la misma tecnología. La policía podría utilizar esta herramienta para procesar atestados. En grandes textos de ese tipo se pueden encontrar algunos patrones léxicos comunes y hacer una especie de estudio exploratorio para complementar con otros estudios estadísticos que buscan patrones en la conducta de los delincuentes.

9. ¿Esos datos se les escaparían de otra forma?

Sí, porque son, por así decirlo, rasgos latentes, que no están a la vista pero que de repente aparecen. Por ejemplo, estás buscando en un determinado tipo de delito un rasgo que se produce en un momento dado: un incendio y que hay quema de rastrojos. Observas lo que tiene que ver con quema de rastrojos y te aparecen muchos términos, frases. Así vas acotando el corpus de investigación.

10. ¿Tiene similitudes con las herramientas SEO?

En cierta manera, sí. Al final la filosofía es la misma, porque SEO y SEM se basan en encontrar palabras claves que tengan mucha audiencia. Estas estrategias se podrían llegar a desarrollar con nuestros programas, porque hay índices numéricos en Gallito que dicen qué palabras aportan más información que otras.

11. A la hora de comercializarlo, te estás ayudando de Internet. ¿Es útil?

Sin duda. Nosotros tenemos dos blogs. Uno es del grupo de interés (El semántico), y el otro se llama The contact center.

Add new comment

Your name

The content of this field is kept private and will not be shown publicly.

Para el envío de comentarios, Ud. deberá rellenar todos los campos solicitados. Así mismo, le informamos que su nombre aparecerá publicado junto con su comentario, por lo que en caso que no quiera que se publique, le sugerimos introduzca un alias.

Normas de uso:

Las opiniones vertidas serán responsabilidad de su autor y en ningún caso de www.madrimasd.org,
No se admitirán comentarios contrarios a las leyes españolas o buen uso.
El administrador podrá eliminar comentarios no apropiados, intentando respetar siempre el derecho a la libertad de expresión.

CAPTCHA

Get new captcha!

What code is in the image?

Enter the characters shown in the image.

Esta pregunta es para probar si usted es un visitante humano o no y para evitar envíos automáticos de spam.