Skip to content

Mixtral-8x7B, MoE para el pueblo

Posted on:14 de diciembre de 2023 at 00:00

Mixtral-8x7B-MoE

Los de MistralAI se levantaron un día y subieron un magnet link (torrent) a x.com sin decir mucho más. Un par de días después levantaron EUR 400M en una ronda de inversión que los llevó a una valuación de $2B de dólares. Viendo lo bien que anduvo Mistral-7B, la comunidad de nerds hermosa que tenemos se metió en una carrera contra el tiempo para hacerlo funcionar y para empezar a evaluar que tan bien se comparaba con otros modelos abiertos y proprietarios. Resultó ser que funciona un 6% mejor GPT-3.5 en promedio y también que sale aprox. un 60% menos que OpenAI. O sea que finalmente sucedió .. un año después de que salió ChatGPT tenemos una versión abierta que podemos usar comercialmente que tiene el mismo o más rendimiento. En algunos lugares lo estan hosteando a más de 175 tokens/sec (un humano lee aprox. a ~10 tokens/sec)

Que dicen en twitter?

Jim Fan (NVIDIA, OpenAI):

Andrej Karpathy (OpenAI, Tesla)

que si lo dejas un rato te adivina el modelo viendo el params.json

Soumith Chintala (PyTorch, MetaAI)

Nathan Lambert (Allen Institute for AI)

Que anunció MistralAI?

Dos cosas. Primero sacaron un blog post sobre Mixtral-8x7B, su primer modelo usando “Mixture of Experts” (MoE). Lo podés ver acá. Después anunciaron “La plateforme” donde ” (their) first AI endpoints are available in early access”. Ahi vemos dos modelos: mistral-small que es su modelo MoE-8x7B y después mistral-medium que es un modelo proprietario (como OpenAI o Anthropic) que está cerca de GPT-4 en performance, pero al menos 4 veces mas barato. Acá esta el anuncio.

Mistral Medium

Donde podemos probar Mixtral-8x7B?

Hay una banda de lugares, podés irte a HuggingChat, al Chatbot Arena (LMSYS), o a Together.ai.

Acá hay un review de los lugares donde lo tenés al modelo como una API.

Y qué tan bien funciona?

A toolkit for inference and evaluation of ‘mixtral-8x7b-32kseqlen’ from Mistral AI

Qué es todo esto de los “Mixture of Experts” (MoE)?

Dos lindos artículos, uno por Huggingface acá, y otro por Nathan Lambert acá.

Switch Transformers