Innovaciones en Visión Artificial: Evaluación de ChatGPT, Gemini y Copilot para el Análisis de Imágenes
Resumen
En los últimos años los Modelos de Lenguaje de Gran Escala (LLM) han tenido un crecimiento exponencial evolucionado rápidamente, desde sus inicios cuando fueron concebidos bajo la premisa de simples herramientas que comprendían texto hasta nuestros tiempos que se han convertido en sistemas multimodales capaces de generar contenido creativo y complejo. Esta innovación se ha impulsado por los grandes avances en arquitecturas de redes neuronales y ha eso sumarle la disponibilidad de grandes conjuntos de datos. En este estudio, se tiene como objetivo principal comparar tres LLMs más usados que son: ChatGPT, Gemini y Copilot, en la ejecución de la tarea de convertir imágenes en texto (I2T). Se evaluó la capacidad que tiene cada modelo para describir de manera detallada y precisa diferentes tipos de imágenes, entre las cuales se evaluó pinturas artísticas, escenas urbanas e imágenes con instrucciones. Los resultados obtenidos muestran que los tres modelos poseen un alto nivel de desempeño, el modelo de Gemini sobresale gracias a que mostro habilidad para integrar información visual y textual de manera más eficiente. Los resultados del estudio muestran que los LLMs continúan evolucionando, con lo que podemos esperar ver avances aún más significativos en su capacidad para comprender y generar lenguaje natural. Así mismo, se espera que esta evolución permita a estos modelos verse más aplicados en la vida cotidiana de todas las personas, automatizando procesos y ayudando a mejorar el desarrollo de asistentes virtuales.
Derechos de autor 2025 Instituto Superior Tecnológico Universitario Rumiñahui

Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.
Los originales publicados en las ediciones impresa y electrónica de esta revista son propiedad del Instituto Superior Tecnológico Universitario Rumiñahui, por ello, es necesario citar la procedencia en cualquier reproducción parcial o total. Todos los contenidos de la revista electrónica se distribuyen bajo una licencia de Creative Commons Reconocimiento-NoComercial-4.0 Internacional.