Más allá del furor mediático: cómo la IOE utilizó la IA generativa para la evaluación a nivel corporativo de los compromisos de reposición del FIDA (FIDA 11 y FIDA 12)

Este blog se publicó inicialmente aquí.

I. Introducción

1. En 2024, la Oficina Independiente de Evaluación del FIDA (IOE) puso en marcha una evaluación a nivel corporativo (CLE) del desempeño institucional y operativo del FIDA en el marco de IFAD11 e IFAD12. La evaluación examinó aspectos clave del modelo de negocio del FIDA, entre ellos su arquitectura financiera, sus operaciones y la gestión de los recursos humanos.

2. La recopilación y el análisis de datos se llevaron a cabo a partir de múltiples fuentes de información, entre las que se incluyen entrevistas estructuradas con las partes interesadas de la sede, estudios de casos de países, evaluaciones corporativas (CLE) y evaluaciones temáticas anteriores, evaluaciones de estrategias y programas por países (CSPE), y un corpus cada vez mayor de informes estratégicos y operativos.

3. Para estructurar mejor los resultados derivados de estas diversas fuentes de evidencia y facilitar un análisis significativo y eficiente en términos de tiempo, IOE integró la IA generativa en el proceso de evaluación, una innovación alineada con la estrategia de IA de IOE y la política de gobernanza de datos del FIDA.

4. En términos sencillos, la IA ayudó al equipo de evaluación a examinar grandes volúmenes de información de manera más eficiente, sin perder rigor ni transparencia. Igualmente importante fue que ayudó enormemente al equipo a triangular datos e información procedentes de un vasto conjunto de fuentes variadas.

II. ¿Qué hicimos y por qué?

5. La IA no se utilizó para sustituir el criterio de los evaluadores. En cambio, ayudó al equipo a organizar grandes volúmenes de datos cualitativos, a encontrar pruebas de manera eficiente y a aplicar un enfoque más coherente para el análisis de los resultados de todas las fuentes. También facilitó el seguimiento de cada hallazgo hasta su fuente original. Cada flujo de trabajo de IA se diseñó para respetar los principios del Manual de Evaluación del IOE con el fin de garantizar la calidad, la coherencia, el rigor y la transparencia de la evaluación, al tiempo que se cumplían las normas éticas del sector, incluidas las salvaguardias sobre la privacidad de los datos y los protocolos de validación humana.

6. La razón principal para utilizar la IA fue la escala. El CLE se basó en múltiples bloques de evidencia, incluida la síntesis de nueve evaluaciones corporativas y temáticas, dos evaluaciones de la Red de Evaluación del Desempeño de las Organizaciones Multilaterales (MOPAN), 35 CSPE, 62 programas de oportunidades estratégicas por país (COSOP), 10 estudios de casos por país con aportaciones de más de 350 entrevistas, más de 90 entrevistas a informantes clave con la dirección del FIDA, partes interesadas y miembros de la Junta Ejecutiva, una encuesta electrónica con 486 participantes, análisis de cartera, análisis temáticos en profundidad y una evaluación de impacto. La IA permitió trabajar con una base empírica más amplia, al tiempo que se mantenía el análisis estructurado y transparente.

III. ¿Cómo lo hicimos?

7. En el caso de las entrevistas, las grabaciones de audio se transcribieron y convirtieron en texto estructurado, y los puntos clave extraídos, las citas con marca de tiempo y las atribuciones de las partes interesadas se asignaron a preguntas de subevaluación (Sub-EQ). El equipo también desarrolló un chatbot entrenado con actas de entrevistas anonimizadas. Los evaluadores podían formular preguntas en lenguaje sencillo y recibir respuestas basadas en los datos, incluyendo citas y enlaces a las transcripciones originales. Se utilizó un enfoque similar para las entrevistas semiestructuradas en los estudios de caso de los países, que abarcaron a contrapartes gubernamentales, personal del FIDA, unidades de proyecto, donantes y actores del sector privado.

8. En cuanto a los documentos, se utilizó una clasificación basada en IA con categorías predefinidas para examinar grandes volúmenes de material del FIDA disponible públicamente, incluyendo CSPE, COSOP, evaluaciones de MOPAN, notas de estrategia de país y documentos de la Junta. Por ejemplo, se revisaron más de 95 informes sobre actividades no crediticias en 33 subdimensiones, con una precisión que osciló generalmente entre el 80 % y el 95 %. Se utilizó el mismo enfoque para examinar cuestiones operativas como la contratación pública, los desembolsos, la puntualidad y la gestión presupuestaria, así como temas más amplios como el cambio transformacional. Cada párrafo clasificado se etiquetó (por país, año y tipo de documento) y se vinculó a su fuente. Esto permitió filtrar y comparar la información fácilmente, y redujo el tiempo de análisis de semanas a días.

9. La IA también ayudó con la triangulación. Permitió al equipo comparar las pruebas de entrevistas, estudios de caso y documentos, garantizando que cada hallazgo estuviera respaldado por múltiples fuentes antes de ser incluido en el análisis.

10. La IOE aplicó sólidos mecanismos de validación y salvaguardias para garantizar la credibilidad. Los resultados de la IA se trataron estrictamente como aportaciones analíticas y no como hallazgos. Los evaluadores revisaron todos los resultados, cotejándolos con las transcripciones y los documentos originales, y confirmando su pertinencia antes de utilizarlos. Todos los datos se anonimizaron antes de su procesamiento, y el análisis se llevó a cabo en entornos seguros, de conformidad con las políticas de la IOE del FIDA y los Principios éticos del UNEG para el uso de la IA en las evaluaciones de las Naciones Unidas. Los resultados de la IA también se compararon con la codificación humana mediante comprobaciones aleatorias y métricas de precisión estándar. Se documentaron las indicaciones y las reglas de codificación, y todos los resultados fueron trazables hasta su fuente original. La infraestructura y la supervisión humana sistemática garantizaron la transparencia, la credibilidad y la trazabilidad a lo largo de toda la CLE.

IV. ¿Qué hemos ganado y aprendido?

11. Una de las ventajas más evidentes fue el ahorro de tiempo. Tareas que antes llevaban semanas (como la selección de un gran número de documentos) se completaron en días, y la búsqueda de pruebas específicas se hizo mucho más rápida. El enfoque también mejoró la coherencia, ya que los tipos de pruebas similares se trataron de la misma manera en todos los países y temas. Los flujos de trabajo desarrollados ahora pueden reutilizarse en futuras evaluaciones, lo que supondrá un ahorro de tiempo en el futuro.

12. Sin embargo, no todo pudo automatizarse. Por ejemplo, los conceptos complejos y multidimensionales (como el cambio transformacional o la participación en las políticas), que merecen un mayor grado de comprensión contextual, requirieron la interpretación de expertos por parte del equipo de evaluación. También hubo retos técnicos. Los errores de transcripción, especialmente con terminología especializada o acentos, y los problemas con los documentos escaneados requirieron corrección manual. El diseño de indicaciones eficaces también llevó tiempo y varias iteraciones.

13. Por último, aunque la IA ahorró tiempo en algunas áreas, requirió una validación cuidadosa, incluyendo comprobaciones aleatorias y verificaciones cruzadas entre fuentes.

En conclusión, la IA generativa no es una solución milagrosa, pero en el caso de la CLE del FIDA11–12, demostró ser un aliado práctico, ayudando a los evaluadores a ir más allá de las modas pasajeras para ofrecer un análisis más rápido, más coherente y más trazable, al tiempo que se salvaguardaba el rigor y el juicio humano.

Más allá del furor mediático: cómo la IOE utilizó la IA generativa para la evaluación a nivel corporativo de los compromisos de reposición del FIDA (FIDA 11 y FIDA 12)

Publicado el 11/05/2026 by Anoop sharma, Hansdeep Khaira