Innovaciones en Visión Artificial: Evaluación de ChatGPT, Gemini y Copilot para el Análisis de Imágenes

Pablo David Minango Negrete; Óscar Marcelo Zambrano Vizuete; Juan Carlos Minango Negrete; César Andrés Minaya Andino; Carlos Jostin León Galeas

doi:10.37431/conectividad.v6i2.284

Innovaciones en Visión Artificial: Evaluación de ChatGPT, Gemini y Copilot para el Análisis de Imágenes

Autores/as

Pablo David Minango Negrete Instituto Superior Tecnológico Rumiñahui https://orcid.org/0000-0002-3382-7616
Óscar Marcelo Zambrano Vizuete Instituto Superior Tecnológico Rumiñahui https://orcid.org/0000-0001-5152-7572
Juan Carlos Minango Negrete Instituto Superior Tecnológico Rumiñahui https://orcid.org/0000-0002-2682-8602
César Andrés Minaya Andino Instituto Superior Tecnológico Rumiñahui https://orcid.org/0000-0002-8659-8626
Carlos Jostin León Galeas Instituto Superior Tecnológico Rumiñahui https://orcid.org/0009-0001-7394-4921

DOI:

https://doi.org/10.37431/conectividad.v6i2.284

Palabras clave:

ChatGPT, Gemini, Copilot, IA, Procesamiento de Lenguaje Natural

Resumen

En los últimos años los Modelos de Lenguaje de Gran Escala (LLM) han tenido un crecimiento exponencial evolucionado rápidamente, desde sus inicios cuando fueron concebidos bajo la premisa de simples herramientas que comprendían texto hasta nuestros tiempos que se han convertido en sistemas multimodales capaces de generar contenido creativo y complejo. Esta innovación se ha impulsado por los grandes avances en arquitecturas de redes neuronales y ha eso sumarle la disponibilidad de grandes conjuntos de datos. En este estudio, se tiene como objetivo principal comparar tres LLMs más usados que son: ChatGPT, Gemini y Copilot, en la ejecución de la tarea de convertir imágenes en texto (I2T). Se evaluó la capacidad que tiene cada modelo para describir de manera detallada y precisa diferentes tipos de imágenes, entre las cuales se evaluó pinturas artísticas, escenas urbanas e imágenes con instrucciones. Los resultados obtenidos muestran que los tres modelos poseen un alto nivel de desempeño, el modelo de Gemini sobresale gracias a que mostro habilidad para integrar información visual y textual de manera más eficiente. Los resultados del estudio muestran que los LLMs continúan evolucionando, con lo que podemos esperar ver avances aún más significativos en su capacidad para comprender y generar lenguaje natural. Así mismo, se espera que esta evolución permita a estos modelos verse más aplicados en la vida cotidiana de todas las personas, automatizando procesos y ayudando a mejorar el desarrollo de asistentes virtuales.

Descargas

PDF
HTML

Publicado

2025-05-16

Cómo citar

Minango Negrete, P. D., Zambrano Vizuete, Óscar M., Minango Negrete, J. C., Minaya Andino, C. A., & León Galeas, C. J. (2025). Innovaciones en Visión Artificial: Evaluación de ChatGPT, Gemini y Copilot para el Análisis de Imágenes. CONECTIVIDAD, 6(2), 251–262. https://doi.org/10.37431/conectividad.v6i2.284

Descargar cita

Número

Vol. 6 Núm. 2 (2025): Conectividad - Edición Especial

Sección

Artículos Científicos

Licencia

Derechos de autor 2025 Instituto Superior Tecnológico Universitario Rumiñahui

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.

Los originales publicados en las ediciones impresa y electrónica de esta revista son propiedad del Instituto Superior Tecnológico Universitario Rumiñahui, por ello, es necesario citar la procedencia en cualquier reproducción parcial o total. Todos los contenidos de la revista electrónica se distribuyen bajo una licencia de Creative Commons Reconocimiento-NoComercial-4.0 Internacional.

Innovaciones en Visión Artificial: Evaluación de ChatGPT, Gemini y Copilot para el Análisis de Imágenes

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Información

Enviar un artículo

Idioma

indexaciones