En la columna de hoy, analizo en detalle la creciente disponibilidad y utilidad de los llamados modelos de lenguaje pequeños (SLM, por sus siglas en inglés), que están aumentando en popularidad mientras que la aparición de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) continúa con gran vigor y promesa. ¿Qué significa todo esto? El asunto es el siguiente: se podría afirmar fácilmente que podemos tener el pastel y comérnoslo también. La situación emergente es una verdadera combinación de dos que ofrece lo mejor de ambos mundos.
Hablemos de ello.
Este análisis de una propuesta innovadora es parte de mi cobertura continua en la columna de Forbes.com sobre lo último en IA, incluida la identificación y explicación de varias complejidades impactantes de la IA (ver el enlace aquí ).
La grandeza nos ha llevado al primo más pequeño
Empecemos por el principio. Cuando se utiliza una IA generativa como la popular ChatGPT, se está haciendo uso de una capacidad subyacente conocida como modelo de lenguaje amplio.
e trata de un modelo computacional y matemático que ha sido entrenado con datos sobre muchos textos escritos por humanos. Primero se escanea Internet en busca de todo tipo de contenido escrito por humanos, como ensayos, narraciones, poemas y similares, que luego se utilizan para realizar una amplia búsqueda de patrones. El objetivo es que la IA imite computacionalmente la forma en que los humanos componen oraciones y utilizan las palabras.
Se considera un modelo de lenguaje natural como el inglés y resulta ser bastante grande en tamaño, ya que inicialmente parecía ser la única forma de lograr que la coincidencia de patrones fuera buena. La grandeza consiste en tener una gran estructura de datos interna que abarca los patrones modelados, generalmente utilizando lo que se llama una red neuronal artificial o ANN, vea mi explicación detallada en el enlace aquí . La necesidad de establecer adecuadamente esta gran estructura de datos implicó realizar grandes escaneos de contenido escrito, ya que solo escanear de manera superficial no podía hacer que la coincidencia de patrones fuera viable.