Las LLMs alucinan, Favras parametriza y valida.

En el mes de marzo, Kamiwaza AI publicó un estudio en arXiv que evaluó 35 modelos de inteligencia artificial en tareas de análisis documental, procesando más de 172 mil millones de tokens.

Los resultados son llamativos.

El modelo con mejor desempeño fabrica respuestas el 1,19% del tiempo. El modelo promedio lo hace el 25% — uno de cada cuatro preguntas sobre información inexistente recibe una respuesta inventada, coherente y convincente. A mayor volumen de documentos, peor: a 200K tokens, ningún modelo baja del 10% de alucinación.

El estudio también revela algo menos evidente: saber extraer información correcta y no inventar información inexistente son capacidades distintas. Un modelo puede ser muy bueno en lo primero y pésimo en lo segundo.

Esto no es un problema de la IA en general, es un problema específico de usar herramientas generativas en contextos que exigen precisión verificable.

FAVRAS no es un modelo generativo. Opera con reglas parametrizadas por el cliente, no con probabilidades. No genera respuestas, valida documentos. Su equipo garantiza el mejor modelo para la máxima precisión en tu flujo.

Si tu empresa analiza contratos, expedientes o certificados en volumen, vale la pena leer el estudio. Y vale la pena preguntarse qué tipo de IA está usando hoy.