Mistral AI

La startup francesa de IA Mistral, conocida por sus poderosos modelos de IA de código abierto, ha lanzado hoy dos nuevos modelos en su creciente familia de grandes modelos de lenguaje (LLMs): un modelo basado en matemáticas y un modelo de generación de código para programadores y desarrolladores, basados en la nueva arquitectura conocida como Mamba, desarrollada por otros investigadores a finales del año pasado.

Mamba busca mejorar la eficiencia de la arquitectura transformadora utilizada por la mayoría de los principales LLMs simplificando sus mecanismos de atención. Los modelos basados en Mamba, a diferencia de los modelos más comunes basados en transformadores, podrían tener tiempos de inferencia más rápidos y un contexto más amplio. Otras empresas y desarrolladores, incluyendo AI21, han lanzado nuevos modelos de IA basados en esta arquitectura.

Ahora, utilizando esta nueva arquitectura, el modelo Codestral Mamba 7B de Mistral ofrece un tiempo de respuesta rápido incluso con textos de entrada más largos. Codestral Mamba es especialmente eficaz para casos de uso de productividad de código, particularmente para proyectos de codificación más locales.

Mistral probó el modelo, que será gratuito en la API de la Plateforme de Mistral, manejando entradas de hasta 256,000 tokens, el doble que el GPT-4o de OpenAI.

En pruebas de referencia, Mistral demostró que Codestral Mamba superó a los modelos de código abierto rivales como CodeLlama 7B, CodeGemma-1.17B y DeepSeek en pruebas HumanEval.

Los desarrolladores pueden modificar y desplegar Codestral Mamba desde su repositorio en GitHub y a través de HuggingFace. Estará disponible con una licencia de código abierto Apache 2.0.

Mistral afirmó que la versión anterior de Codestral superó a otros generadores de código como CodeLlama 70B y DeepSeek Coder 33B.

La generación de código y los asistentes de codificación se han convertido en aplicaciones ampliamente utilizadas para modelos de IA, con plataformas como Copilot de GitHub, impulsado por OpenAI, CodeWhisperer de Amazon y Codenium ganando popularidad.

Mathstral: Optimizado para aplicaciones STEM

El segundo lanzamiento de modelo de Mistral es Mathstral 7B, un modelo de IA diseñado específicamente para el razonamiento matemático y el descubrimiento científico. Mistral desarrolló Mathstral con el Proyecto Numina.

Mathstral tiene una ventana de contexto de 32K y estará bajo una licencia de código abierto Apache 2.0. Mistral dijo que el modelo superó a todos los modelos diseñados para el razonamiento matemático. Puede lograr «resultados significativamente mejores» en las pruebas con más cálculos en el tiempo de inferencia. Los usuarios pueden utilizarlo tal cual o afinar el modelo.

“Mathstral es otro ejemplo de los excelentes compromisos entre rendimiento y velocidad logrados al construir modelos para propósitos específicos, una filosofía de desarrollo que promovemos activamente en la Plateforme, particularmente con sus nuevas capacidades de afinación,” dijo Mistral en una publicación de blog.

Mathstral se puede acceder a través de la Plateforme de Mistral y HuggingFace.

Mistral, que tiende a ofrecer sus modelos en un sistema de código abierto, ha estado compitiendo constantemente contra otros desarrolladores de IA como OpenAI y Anthropic.

Recientemente recaudó $640 millones en una ronda de financiamiento serie B, elevando su valoración a casi $6 mil millones. La empresa también recibió inversiones de gigantes tecnológicos como Microsoft e IBM.

Todo sobre Qwen2

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Verificado por MonsterInsights