Introducción: Question Answering (QA)
Las técnicas IR (Information
Retrieval, Recuperación de Información) han
probado correctamente la localización dentro de grandes colecciones
de documentos la información relevante a una pregunta realizada
por un usuario. A menudo, el usuario no desea documentos
enteros, sino respuestas a preguntas específicas. Se han
investigado las técnicas de cómputo necesarias para el
funcionamiento eficaz a este nivel del granularidad, centrándose
sólo en las preguntas que se pueden contestar tomando
algunas palabras de un texto (dejando a un lado,
el contestar respuestas más complejas, tales como historias
sobre acontecimientos, descripciones de objetos, discusiones,opiniones,
etc.).
Los sistemas de Pregunta-Respuesta exhiben
una estructura común: todos crean una pregunta estandarizada
basándose en
la pregunta del usuario, utilizando las técnicas IR con la pregunta generada
segmentan los documentos que probablemente puedan contener
una respuesta, y después establecer un ordenación de los segmentos que
con mayor probabilidad puedan responder a la pregunta realizada.
La diferencia entre los diferentes sistemas es la
forma de segmentar los documentos, un división en partes muy
pequeñas no conseguirían responder a
ninguna pregunta, y divisiones demasiado grandes
dificultarían
la indexación
de los segmentos.
Por ello, contestar a preguntas cortas se
convierte en un problema, debido a la dificultad de encontrar
la mejor combinación
del entre las tecnicas IR para conseguir segmentos de un
tamaño óptimo y las técnicas
de nivel sintáctico-semántico (NLP, Procesamiento de Lenguajes Naturales)
para devolver una respuesta lo más exacta posible.
El lenguaje es complejo,
por lo que es necesario clasificar la
pregunta realizada, tranformándola en una pregunta
del tipo QA. Una vez conseguida una pregunta estandar
es necesario utilizar reglas sintácticas
y semánticas que faciliten el análisis y conseguir
unir la pregunta con las respuestas posibles.
Los pasos a seguir para conseguir unos resultados óptimos
se detallan a continuación:

La tipología QA
Hay muchas formas de buscar una
cosa. Hay muchas maneras de devolver una misma respuesta.
Estas variaciones forman una clase de equivalencia semántica
entre las preguntas y las respuestas. Cualquiera de las posibles
preguntas se puede contestar por cualquiera de las posibles
respuestas. Puesto que el usuario puede emplear cualquier
versión de
la pregunta, y los documentos fuente pueden contener
cualquier version de la respuesta, un sistema eficiente
debe agrupar los tipos equivalentes de la
pregunta y de la respuesta. Cualquier pregunta específica se puede
poner en un índice en su tipo. Estos
tipos de equivalencia del sistema QA pueden ayudar con la extensión de
la pregunta (para IR) y la respuesta que establece claramente
(para NLP). Sin embargo, la equivalencia no es clara;
Esta inexactitud obliga a que los tipos del sistema QA estén organizados
en una jerarquía herenciable, permitiendo que los requisitos de la respuesta
que satisfagan preguntas más generales se eliminarán por respuestas
más
específicas.
Coincidencia con la respuesta
Existe una fórmula que indica el grado de
coincidencia de una respuesta en función de la pregunta introducida,
esta fórmula es:

Siendo:
-
W: tamaño del segmento.
-
r: posición
que ocupa en la lista devuelta por el analizador.
-
I: información
contenida en el segmento.
-
e: penalización
por la utilización de palabras ambiguas (e=0.8).
- u: (valor 0 ó 1) indica si una
palabra "ha sido incluida" por el modelo de QA
y no debe contribuir (otra vez) a la cuenta.
-
b: apoyo al verbo principal con palabras clave (b=2.0)
- q: diversas palabras en la pregunta, y
bonificaciones específicas (q=3.0).
|