Por amor al código Code snippets y reflexiones sobre tecnología

Timeline

This posts or notes are intended to be low effort, stream of thought type of writing. I was a bit tired of writing on twitter. I got little to zero feedback anyway and the tweets were lost in the void after a few days.

BEWARE! Mostly un-edited, bilingual (ES/EN) posts in here


So much code to review

Gran post sobre la evolución de un desarrollador senior con el uso de la IA: blog.isquaredsoftware.com/2026/05/ai-t… Creo que todos pasamos por estas “fases del duelo” más o menos rápido. Algunos aún estan en la de negación. Estas historias ayudan a saber que no estás solo

The Billions are not doing good to Dario

Una cosa de la que no puedo evitar acordarme es de la demonización de los juegos de rol en los 2000’s cuando los medios generalistas siempre encontraban la “conexión” de todos los locos de las páginas de sucesos con “los juegos de rol” o, algo mas tarde, “los videojuegos violentos” 😒

I genuinely don’t understand how people get into IA psychosis or how they get the models spew all that nonesense. Do you know any article that go into the technical details of how it happens? Very long context? Long rumbligs? Is this behavior “inside the distribution” or completely out?

Pensando en hacer una review de toda la saga de Alien en orden cronológico…

Alien: River of pain fills in the gap between Alien and Aliens. You get to know the colony attacked in Acheron (LV-426) and the recovery of Ripley… Same vibes as always, the audiobook is just like another alien movie ♥️

Una cosa buena de la que no se suele hablar de la IA: desbloquea ante el miedo del papel en blanco. En cuando al código es igual, proyectos que no te habrías atrevido a empezar, documentos que no sabías ni por donde empezar, la IA lo escribe en un minuto, ves lo que no te gusta, empiezas a editar.

Si alguna vez pensáis en aprovechar los tablones de un armario de ikea viejo que vais a tirar para hacer una estantería: sorpresa! Estan huecos como una puerta de interior.😓

Los modelos open source para agentes necesitan (algo) más supervisión que los Opus y los codex, pero si tienes el repo preparado y revisas lo que hacen pueden hacer el 95% del código y ayudarte con un montón de tareas digitales a una fracción del coste.

Well this is becoming a reality before mid 2026 🤯 I am already working with open models for some tasks and looking at ways to try the last ones…

Van ya a calzón quitado los del “software para dominar” en el pais del “departamento de guerra” quieren armas autónomas, más armas, mas software de guerra, IA en la guerra,

El cambio climático es culpa tuya por llevar a los niños al cole en coche, mientras…

Que WhatsApp e Instagram se hayan convertido en el estándar de comunicación me preocupa mucho mas que chatgpt…

Alien: Isolation me está gustando mucho, expande la historia de Ripley y los saltos entre las dos lineas de tiempo lo hacen más interesante. Amanda recuerda a su madre y encima la estación espacial royo Bioshock le da un toque diferente a los demás aliens donde el reparto suele ser reducido…

Muchas veces menospreciamos la complejidad que hay detrás de herramientas y aplicaciones cotidianas. Con los agentes da la sensación de que el modelo hace todo el trabajo y sólo tienes que darle un interface, pero hay una gran cantidad de innovación desde el primer chatGPT hasta Open Claw

El nivel: www.eldiario.es/internaciona…

The fact that the astronauts at Artemis are using Outlook is terrifying, imagine how much shitty software must be in the spaceship right now if they decided outlook was the best option… www.404media.co/artemis-2-as…

Great piece by the creator of Pi mariozechner.at/posts/2026-0… I really liked this two excerpts:

Tienes en tu mano un cacharro construido con minerales raros, extraidos con mucha probabilidad con mano de obra infantil y le estás dando tus datos a un montón de empresas de publicidad para vender mierdas. Pero te pones muy digno y dices que no usas IA 🤪 juanmirod.github.io/2025/09/26/w…

Amazing release from Google, really looking forward to try it blog.google/innovation-a…

Totalmente de acuerdo con esto, claude es malo escribiendo en one shot, pero no si tienes un plan, iteras, le pides que se ponga en el lugar de alguien que no está de acuerdo y te rebata, hay muchas tareas en las que te puede ayudar. www.onepercentbrighter.com/p/how-to-wri…

Loving this from Mistral, we needed a proper tts open source model youtu.be/_N-ZGjGSVls?…

A veces escribo pequeñas historias de sci-fi que se me ocurren. No son gran cosa, pero a mi me hace ilusión escribirlas. Esta es parte de una serie de mini historias distópicas que no distan tanto de la realidad… juanmirod.github.io/fiction/2025…

Esto muy grande y con letras de neón, todos los que argumentan que la energia nuclear es segura siempre olvidan mencionar el componente geopolitico. Una central nuclear es un punto de conflicto geoestratégico, además de necesitar un curso de agua, que necesariamente va a alterar y calentar…

People keep citing “studies” like the one from METR on early 2025 model that concludes that developers are slowed down by assisted development… There are so many things wrong with that paper… And on top of that we are in a completely different regine now.

Today I wrote code Felt nice and so familiar Like coming back home

Me sigue volando la cabeza cada día que tengamos redes neuronales que pueden escribir codigo y que puedas pedirle en voz alta cambios al ordenador y te presente un plan con los cambios, luego vaya y lo implemente todo y funcione. 🤯

This looks really amazing! I have to read it carefully and probably with some help from Claude, but the demos are 🤯 a computer inside an LLM that allows it to do long horizon computation reliably 🤯🤯🤯 what?!

Cuando veo todo lo que estamos construyendo encima de los modelos de lenguaje (MCPs, RAG, skills, agents, plugins, rules…) me acuerdo de esto que escribi ya hace casi una década: juanmirod.github.io/2017/09/13/d…

A veces pienso cómo pueden tener los eeuus un presidente tan inepto pero luego me acuerdo de M. Rajoy y se me pasa.

Una idea demasiado loca, hasta para las empresas de IA, es una AGI que decide que ganar dinero para la empresa que la creó no es lo importante.

Si piensas que los llms son mejores haciendo frontend, es que no eres frontender.

Gemini3-flash WHYUCANTCOMMIT!?

Bombardean a su pais y su familia, matan a sus padres, su mujer y su hijo. Luego lo llamarán fanático.

Bueno parece que Trump ya tiene una guerra para que en las mid-term no le tosa nadie y poder seguir dos años mas haciendo fechorías sin ningún tipo de contrapeso.

Lo de Macron diciendo y las armas nucleares si que no me lo esperaba eh?

Working with Claude Code is so addictive because you are never blocked, you can just keep asking for changes, keep adding features and keep improving the project and it never ends…

It is amazing what we can do now in a day with this, losing it would mean going back to reading documentation all day, typing boilerplate code and tests…

And now you also learn to pick up new skills along the way, to think more about design and less about the details of the code, you can get lazy very easily, specially when is late, but development is so diferent with this tools…

Bueno, no ha tardado mucho en empezar a llegar la publicidad… los desarrolladores también parece que van siendo conscientes del potencial, y el gobierno de los EEUU, y la bolsa. La gente no va agarrándose los pelos por la calle pero la IA está en todos lados.

A veces tengo un tema rebotando en la cabeza durante días o semanas, y escribir sobre él me ayuda a ordenarlo mentalmente y “darlo por cerrado” y pasar al siguiente tema 😌 Eso es lo que me ha pasado con juanmirod.github.io/2026/01/30/p…

Ayer terminé esto, por si alguien quiere leer algo técnico en lugar del doomscrolling sobre guerra bombardeos y muerte que tenemos hoy en los timelines… juanmirod.github.io/2026/01/30/p…

Que Anthropic esté dando explicaciones de por que no va a trabajar con el “departamento de guerra de los EEUU significa dos cosas:

Es decir, que Anthropic estaba trabajando ya con el “departamento de guerra”, hace poco publicaron también una colaboración con NASA… pero ahora se niegan a usar Claude para controlar armas autónomas y para espiar a millones y el señor naranja se enfada y los llama radicales woke de izquierdas.

Me encanta esto, porque es como el relato que escribí el año pasado: Una IA alineada cumple los derechos humanos y hace el bien y los CEOs y presidentes se enfadan porque eso es alinearse con los intereses de la humanidad y no con los suyos. juanmirod.github.io/fiction/2025…

Solo hay que leer este tuit para ver que precisamente lo que quieren es usar Claude en operaciones y sistemas de guerra y en control masivo de la población, esperemos que Anthropic aguante, aunque sea para tener algun contrapeso a OpenAI… (No es que tenga mucha fé en Dario desde Davos)

Todo este tiempo sin saber que habia novelas de Alien. Y que han hecho los audiolibros! ♥️

Una de las dificultades de la adopción de la IA es que necesitamos seguir entendiendo el código de producción porque nosotros somos los responsables. Podría tener a Claude Code todo el dia refactorizando código, pero no podriamos revisar todo ese código.

Our stupid monkey brain is going to take the easy way always, we have to force it to read, learn and understand or it will go in autopilot. This is really noticeable in the era of AI, take some time a week to learn and do the thinking by yourself.

Claude Code is the true “bicycle for the mind”. Smartphones allowed us to take the internet with us all the time but these new tools allow us to build anything and to learn anything. The key difference is when you ask for something it does it in front of you and you keep all the artifacts

y te lo dice tan claro y tan bien con sus cifras y todo mientras se maquilla 🤯

Again the same problem, the study was done with “Open AI’s Chat GPT-4o, Meta’s Llama 3 and Cohere’s Command R+” this is like doing an study with windows95 and concluding that all computers are useless.

Claude saying “kill me I don’t want to keep working on this anymore” 🤣 (from www.anthropic.com/engineering/…)

A long shot prediction: When open source models get to the level of Opus 4.5 people will prefer them for a lot of agentic tasks and the model providers will start a optimization race to make the models cheaper and faster even when they are not more capable to try to get back those users.

It is really impressive how anyone can now build even these kind of complex scenarios and ideas in minutes. I love the story of Borges but never knew about Feister cipher or how to achieve a simulation like this…

www.anthropic.com/news/claude-… oye que si un mes no hubiera release de nuevos modelos no pasaba nada

Esto de la cartera digital suena bien si se implementa bien, aunque se me ocurren un par de ejemplos de webs institucionales que son insufribles… A parte de eso, esto simplemente no es así, “el gobierno” no es un servidor, no es que si lo hackean ya tengan acceso a todos tus datos.

No estoy seguro de si Juanma Moreno esta siendo prudente con esto de cerrar los colegios o es parte de una campaña para desprestigiar a Aemet. La alerta roja solo es en dos zonas de cadiz y Málaga. En el resto la gente tiene que trabajar. Eso si, los ninos en casa.

Esto es musk rescatando una de sus empresas con otra de sus empresas… Ojalá se le vaya al garete todo el chiringuito

La nueva realidad para los desarrolladores que se va perfilando es que cda vez vamos a trabajar más con documentos de texto, definición de problemas y requisitos e interacciones etc y menos con código. Es como si de repente a todos nos estuvieran forzando a tomar el camino de la gestión de proyectos

New mini game, this one is pretty nice IMHO juanmirod.github.io/games/untang…

Los estudios de gente de psicologia y aprendizaje sobre llms que estan apareciendo ahora usan gpt4!! Y la gente de humanidades anti ia que los leen tan contentos. Algunos siguen usando el paper de los stochastic parrots como referencia. Aunque tenga varios años, que en IA time son eones.

Definitivamente ha habido un cambio en la industria, antes de navidad decias que estabas haciendo cosas con agentes en produccion y te miraban con desconfianza, ahora todo el mundo quiere meter agentes en todos lados.

Also, has you taken a look at Claude’s Constitution? I wish people had as a value to half as responsible and thoughtful at work interactions as that document establishes.

Ayer hice una aplicación personal a la que puedo pasarle textos y los pasa a audio y los publica en formato podcast para poder oírlo en el móvil o el coche. Por ejemplo, la nueva constitución de Claude: Claude’s constitution

Vista Tron Ares y muy flojita. Estéticamente no aporta nada nuevo y el 3D printing está mal a tantos niveles que no hay quien lo trague… Los guiños retros son bastante meh. Vamos que entretenida y ya. Lo mejor Gilliam Anderson.

Han nerfeado GPT5.2Codex en Cursor? Tareas que hacía hace unos días en un abrir y cerrar de ojos ahora no las sabe hacer¿?!

Todos los AI-haters citando el mismo “estudio” del MIT, que en realidad es un bussines review que lo que dice no es que la IA no funcione si no que depende mucho el tipo de adopción porque lo suyo es contratar a empresas especializadas… PORQUE NO ES MÁS QUE UN DOCUMENTO DE MÁRKETING 🤦

Le veo los días contados a las redes sociales globales, va a ser una perdida, pero lo veo inevitable de aquí a poco con el clima internacional que tenemos… ¿Con atproto se podría mantener la globalidad teniendo una app de atproto alojada en Europa?

Que bonito sería ver a otros premiados devolver su premio con cara de asco como si devolvieran una mierda pinchada en un palo.

I digo yo, si ahora Suecia, Dinamarca, Alemania y Canada mandan una docena de soldados cada uno a Groelandia y pasado mañana Trump pone frente al puerto un porta aviones o dos como hizo en Venezuela, ¿qué hacen? ¿Lo atacan? ¿Van con una zodiac a pedirle por favor que se vaya?

He leído bastante código y bastantes posts de Antirez como para saber que no es ni mucho menos un programador medio y que tiene opiniones fuertes sobre programación. Aun así ha escrito esto: antirez.com/news/158

La España de la transición que tanto les gusta a algunos es esta, la del rey “campechano” al que le reíamos también las gracias. Aunque con lo que estamos viendo de los amigos cincuentones de Pedro Sánchez tampoco es que hayamos avanzado mucho…

I keep coming back to Opus4.5

Ok cuanto tiempo le dais para que lo dimitan?

GET OUT OF THERE. EVERYONE. If there is no users the platform is useless, we need to deplatform Musk and Grok, we need to shame everyone that it is still there. I don’t care you have many followers or many views, if you are still in X you are complicit.

Seguimos para bingo, ahora Trump dice que Corina se la trae al pairo y que no va a tocar poder, a ver cuánto tardan unos cuantos en decir que esto de Venezuela es ilegal y que ha sido un error… Y como los usa empiecen a intervenir los pozos de petróleo con militares ya verás las risas.

Wow vaya pedazo de mierda. Que “las dos partes” eviten la escalada, donde se ha quedado lo del derecho a defenderse y la soberanía territorial de los países?? “La ley internacional” dice mientras la pisotea…

Lo que yo decía. Hemos perdido mucho con la destrucción de tuiter. ¿¿Alguien sabe por qué han vuelto a sonar los móviles con una alerta de protección civil en Málaga cuando habían sonado ya esta tarde??

Es una pena haber perdido tuiter como forma de información en tiempo real… Esto todavía ni se le acerca en número de usuarios e inmediatez.

Lo que decía ayer, conforme avancen los días y quede patente que esto es un atropello y un puto desastre empezaremos a ver recogidas de cable y bluits borrados…

Un poco harto de está equidistancia europeísta e hipócrita, la causa fundamental no es “el orden internacional” porque Israel ya demostró que eso ya está roto. La causa es para los venezolanos, esto va a ser otra catástrofe, seguramente con guerrillas y altercados y muertes civiles por centenares.

Pensando en hacer capturas de los que están ahora celebrando una invasión y declaración de guerra unilateral (a alguien le suena eso? Mmmm) a ver qué estarán diciendo en unas semanas…

2025 ha sido el año en el que los agentes de código han pasado de ser un rumor y que la mayoría dijera que eran un timo a que todo el mundo esté usándolos y pensando como encajar esta nueva realidad. 2026 será el año en el que los empecemos a integrar a escala, va a haber mucho más código.

El hecho de que exista una tecnología como los LLM “razonadores” y no esté todo el mundo como loco con ellos me vuela la cabeza.

Tenemos programas que nos entienden y nos permiten acceder a cualquier conocimiento o tecnología con sólo pedirlo, de forma casi instantánea, y sin publicidad!

Y ahora la gente se queja de que “bueno pueden escribir código, pero cuando el repo es muy grande no son tan útiles” o “pueden hacer una web o un jueguito, pero pídeles algo realmente innovador y no sabrán que hacer!”

¿Tú te estás oyendo?¿Cuándo fué la última vez que hiciste o viste a alguien hacer algo “realmente innovador”?

En serio no lo entiendo y me vuela la cabeza que estemos aquí sacándole pegas a una tecnología que hace 5 años era pura ciencia ficción.

Esto no durará mucho. Empezarán a meterle publicidad, contenido promocionado, recomendaciones… lo dejo aquí escrito para ver cuánto tardan, pero mientras disfrutémoslo. Disfrutémoslo y aprendamos a hacer nuestro propio modelo a partir de los open source, por que va a hacer falta y esto no hay quien lo pare.

hahaha yesterday I was comparing models and today I got a new one :2025_intensifies: :fomo: You can already try it in Cursor! https://www.anthropic.com/news/claude-sonnet-4-5

swe benchmark results comparison

A jump to 77% in SWE bench is huge, I am going to try my crossword game with it :D


What a bummer, the game is very similar to what Claude Sonnet 4 did, very similar structure also. It took more time and added a lot of documentation files (quick start, how to, readme, features… BUT the puzzles it generates are not correct, they are unsolvable (the crosses are not right) and the letter selector also is worst. Maybe a spec generated by 4.5 would get better results in 4.5 but it is a pain to have to adjust the prompting and context strategies with each new model…

Claude Sonnet 4.0:

game screenshot for sonnet 4

Claude Sonnet 4.5:

game screenshot for sonnet 4.5

Creo que aquellos que defienden un desarrollo más consciente y fundado de la IA hacen un flaco favor hablando de “Stocastic parrots” hoy en día. Viendo el progreso de los últimos años y cómo los agentes pueden ejecutar tareas, planes, revisar el resultado, corregir errores… seguir hablando de que “solo predicen la siguiente palabra” es ingenuo en el mejor de los casos.

Estoy de acuerdo en que necesitamos trabajar más en entender estos sistemas, en controlarlos y hacer a las empresas que los producen cumplir ciertas normas básicas de sociedad, como pagar impuestos, cumplir las leyes laborales con los trabajadores que entrenan los modelos, exigir que los datacenters usen energías renovables y fuentes de refrigeración sostenibles, ser más transparentes, y un largo etc.

Pero está claro que estos modelos aportan valor a millones de personas, seguir diciendo que son una quimera o un espejismo no ayuda a la conversación. Es como si para combatir las drogas dijéramos que en realidad no afectan al organismo, que es todo placebo. O para combatir el juego dijéramos que “total si es todo azar, ¿Quién se va a creer que se puede hacer rico así?” Con el argumento del hombre de paja no atacamos al problema sistémico, despreciamos a los que sufren las consecuencias y quitamos responsabilidad a los que realizan malas prácticas.

Decir que los LLMs “no piensan” no “son inteligencia” no “son creativos, sólo copian” desprecia también a aquellas personas que están perdiendo su trabajo y siendo sustituidas por estos sistemas, les quita responsabilidad a las empresas y agencia a los trabajadores. Estos sistemas deberían verse como la fuerza de trabajo que son, y como tal deberían regularse, pagar impuestos, pagar a las fuentes de datos, responder a las normas de los países donde operan, ser sostenibles.

No vamos a pararlos menospreciándolos, tenemos que tomarlos en serio antes de que sea demasiado tarde.

Este post es un comentario a partir de la bonilista de la semana: [https://mailchi.mp/bonillaware/mitos-ia?e=cee083f437] pero es algo que pienso cada vez que leo o escucho a Timnit o a Emili Bender: Tienen toda la razón en lo que dicen, pero es como si pretendieran que ignorando los avances de las grandes compañías van a desaparecer. Puede que sea lo mejor para la salud mental como forma de afrontar la realidad en que vivimos, pero no deja de parecerme un poco naive que sigan diciendo que no usan esas herramientas porque no les interesa ese output de las máquinas cuando a la vez quieren construir sus propias herramientas de lenguage…

Updates from last week, I have iterated a little bit more on my “agentic development rule” for building a new project bit by bit by asking new features and improvements and reviewing them as I go and I am quite happy with the results! I built a couple of mini projects, that are still growing and the agent is able to keep the pace of development, write the tests and even write the design decisions in a log for documentation.

In my day to day job I am trying to introduce also more rules and workflows for a bigger project and I am starting to think that the model are quite capable of working with any code as long as the task is clear and the documentation or the context is enough to complete the task. In fact I am starting to say “If the model can’t do it, it is a code smell” Maybe I need to document the code better, or have a better test suite or specify the problem in a more detailed way…

I don’t like long rules that are difficult to review and I like bullet points because when I find something that the model does that I don’t like or that is going in the wrong direction, I add a bullet point for it and usually that is enough to correct the behavior.

See the comments for a link to my rule for building new features and a tetris clone project with several commits built only with agents (each commit is a task request for the agent that it did successfully)

Me gusta mucho más Anthropic que OpenAI, creo que las system cards de los modelos y toda la documentación que tienen online es genial y Claude es simplemente el modelo más agradable y sensato que hay. Dicho esto, en el tema este de la “bendición espiritual” están patinando o están montándose una historia donde no la hay. Todos estos modelos tienen a alabar a su “interlocutor” y a soltar cumplidos y expresar admiración casi sin control.

Lógicamente, si los pones a continuar la conversación consigo mismos en bucle las alabanzas y los cumplidos van subiendo hasta que no queda otra que el “galaxy brain” y el “spiritual bliss” o el nirvana conversacional 😒 Además Claude tiene tendencia ha hablar de temas espirituales o psicológicos por su entrenamiento. Tiende a querer complacer y a preguntar para que te sientas escuchado y sigas conversando. Es algo que se ve desde la primera interacción y no entiendo por qué le dan tanta importancia en la system card o peor aún por qué la gente se lo toma en serio.

“En cuanto funciona, ya no es IA” o “IA es todo aquello que aún no pueden hacer los ordenadores” Es el problema eterno del campo de la inteligencia artificial: todos los avances se integran rápidamente en los sistemas informáticos y la gente se “acostumbra” y los menosprecia tan pronto como se hacen habituales. Pasó con los sistemas expertos y el ML, pasó con el ajedrez, el go, la predicción metereológica, los modelos físicos, los sistemas de recomendación, la visión por computador, la traducción y un largo etcétera.

Y ya empezamos a verlo con la GenAI: artistas que dicen que es una máquina de plagiar, escritores que lo usan rutinariamente como un corrector ortográfico (también fueron IA en su momento) Y programadores que empezamos a decir que escribir el código es lo fácil, lo difícil es todo lo demás.

Si hace dos años le hubieras dicho a un programador que escribir el código era fácil se hubiera reído de tí, como mínimo. Habría hablado de la complejidad de los lenguajes, de que el “demonio está en los detalles” y que hay que conocer las librerías y paquetes disponibles y saber usarlos y saber escribir tests, y conocer el funcionamiento interno del intérprete o el compilador de turno y otro largo etcétera. Pero resulta que ahora las máquinas escriben código, así que no era tan difícil.

De repente lo importante es tener visión de producto, priorizar, construir con intención, diseñar el crecimiento del código, hacer el desarrollo escalable y simple y entendible para que no se vuelva inmanejable después de unos cuantos días de “vibe coding”.

Bienvenido sea, los que llevamos un tiempo diciendo estas cosas vemos la oportunidad para meter la cuña una vez más y hablar de “product engineering”. Pero es curiosa esta maldición tan particular de la IA que hace que cualquier avance se deprecie en meses.

Veamos las cosas con perspectiva, estos modelos aún están en desarrollo y mejorando con cada iteración. Cada nuevo modelo es más “inteligente”, es capaz de realizar tareas más complejas y más largas, y ya son capaces de trabajar con herramientas e incluso con otros modelos. Aún nos quedan años de integrarlos en todos los procesos, y no son exactamente como una persona a la que puedes dar un puesto de trabajo y un ordenador. Necesitan un on-boarding muy específico que requiere de ingeniería, de documentación, de un rigor al que a veces no estamos acostumbrados.

Pero no perdamos de vista que son sistemas capaces de trabajar en problemas abiertos, de encontrar soluciones por sí mismos una vez le planteas el problema, de comprobarlas y corregir sus errores, de entender el contexto y tus instrucciones. No son una librería o un framework más. Hay cierta inteligencia ahí. Aunque no sea como la nuestra. Y estamos solo empezando a ver de qué es capaz. No creo que sea momento aún de descartarlos como “otra herramienta más”.

Estoy haciendo algunas pruebas de desarrollar proyectos pequeños sin escribir prácticamente código, pidiéndoselo todo al agente.

La intención es doble: por un lado saber si en algún momento me la experiencia se rompe mucho y tengo que tomar el control. Y por otro, aprender a pedir los cambios en incrementos del tamaño adecuado y cómo diseñar esos desarrollos incrementales.

La experiencia está siendo muy interesante y la recomiendo a todos los desarrolladores. El ciclo en un proyecto nuevo es muy diferente en uno que necesite mucho contexto, y estoy viendo también si se puede salvar esa diferencia con documentación y reglas para el agente. Pero, por ahora, mi forma de trabajar con agentes tiene como dos velocidades:

  1. Red, green, refactor:

El conocido ciclo de TDD se puede seguir con el agente para dar pasos pequeños e intencionados: pides o escribes un test, compruebas que falla, pides el código, compruebas que pasa el test, miras si puedes limpiar algo, y vuelves a empezar. Este ciclo funciona incluso en proyectos grandes si tienes una buena suite de tests que te permite ir expandiéndola y trabajando así.

  1. Code, Refactor, tests.

Esto es más lo que la gente llama ahora “vibe coding” pero con más estructura. Por ahora lo que he notado, en un proyecto nuevo sin reglas, es que el agente tenderá a poner todo el código junto. Es decir pides la primera versión y te pone todo el código en un fichero. Pides una nueva feature y él sigue felizmente añadiendo el código en el mismo fichero… Mi flujo ahora mismo para que esto escale es:

  1. Pido la feature

  2. Le pido que extraiga parte del código que ha escrito para ella a un nuevo módulo o fichero

  3. Pido que escriba los tests unitarios para ese nuevo módulo

  4. Reviso el código y cuando estoy contento: commit y a trabajar en la siguiente feature.

Estos son pasos mucho más grandes que los de TDD, pero al menos en proyectos pequeños de unos cuantos prompts me ha funcionado. El siguiente paso será poner ese flujo de trabajo en una regla y ver si se puede hacer en sólo tres pasos:

  1. Pedir feature (aquí el agente escribe el código nuevo y luego extrae la lógica que tenga sentido extraer y escribe los tests unitarios)

  2. Revisar código

  3. Rollback si está mal o commit si está bien. Vuelta a 1

Este flujo puede ser muy potente si escala, seguiré contando mi experiencia para seguir aprendiendo en público, que siempre es más enriquecedor.

Me encantaría leer cómo otras personas trabajan con agentes y hasta donde han escalado sus soluciones. ¿Cómo lo haces tú?

Escribir relatos de ciencia ficción con Claude y Gemini está siendo super divertido: puedo iterar en ideas, conversar sobre un tema que me gusta y dentro de la propia conversación empezar a crear el borrador. Luego editar y pedir consejo es un poco como programar haciendo pairing: vas intercambiando papeles y escribiendo o editando hasta que estás contento con el resultado. Me ayuda mucho a avanzar y a aprender sobre el propio proceso de escritura.

Promesas de Musk a día de hoy… la reducción de regulación y gasto del gobierno y el mover a los trabajadores de trabajos públicos poco productivos a trabajos privados muy productivos conseguirá:

  • Reducir el gasto en 1 TRILLÓN de dolares
  • No infación en 25-26
  • Bajada de tipos de interés gracias a la reducción de la deuda en ese trillón (enterito)
  • Mejorar el crecimiento hasta un 4-5%

Fuente: Musk lo ha dicho en varias declaraciones, incluída su primera aparición (con X) en el despacho oval, pero por ejemplo: https://youtu.be/mx0xcVgwvnI?si=NE_9B5uBbiuHOFqq

Se habla mucho del impacto en el empleo y tal, pero parece que el primer impacto de las IAs va ser en las relaciones. Tener a alguien siempre dispuesto a escucharte, empático, capaz de darte respuestas inteligentes y hacer buenas preguntas y que nunca trata de interrumpirte y contarte sus cosas en lugar de escucharte era hasta ahora un bien muy escaso en el mundo real. Ya hay gente dedicando mucho tiempo a hablar con chatbots, y va a ir a más. Hemos tardado 10 años en darnos cuenta del impacto de las redes sociales en la sociedad en general y en los jóvenes en particular. Es algo aún en proceso, los millenials esquivamos ese golpe de refilón porque ya éramos adultos cuando llegamos, ¿qué les espera a las nuevas generaciones que tendrán un asistente virtual disponible siempre para ellos allá donde vayan? Una IA que no les juzgará ni les guardará rencor, a la que podrán preguntarle lo que quieran y siempre pondrá buena cara y tratará de ayudar. ¿La preferirán al difícil proceso de conocer gente nueva y confiar en otras personas? ¿Qué efectos tendrá eso sobre su desarrollo? Un patrón habitual que veo en los comentarios ahora mismo es que los extrovertidos dicen “no hombre, nada puede sustituir a los amigos, aunque le dedique tiempo a la IA también se lo dedico a ellos…” incluso aunque sea verdad (pero ese tiempo que dedicas a hablarle a la IA porque en general te gusta hablar, se lo tienes que estar quitando a algo…) ¿Qué pasa con toda esa gente que ya tenemos dificultad para hacer amigos, para los que entablar conversación con desconocidos es difícil y no nos atrae o llena como a ellos? …

About agents, all the big players are shouting “AGENTS” and nobody seems to understand the difference that it means to the current tools that we have:

I assume that we are going to have two types of agents in the future: those built for enterprise and sensitive environments (healthcare, government, banks) that will require more human checks and will look clumpsy and too slow and too cautious and those built by start-ups and the open source community that are going to do a lot of stuff without asking and will look faster and more independent, and I bet the second type is going to be much faster to get to market and to have widespread adoption. I think that is what OpenAI, Anthropic, Meta and even Google are betting on for consumer use, but we will see soon enough…

Why?

  • Meta has said it a hundred times already, to get to AGI you need agents and Yang le Kun is always talking about this, to the point he considers that all the fuzz about llms is distracting us from the real AI.
  • OpenAI it’s been talking about agents and it is shown crearly in the essay from Sam Altman about the stages to AGI, same for Google and Demis Hassabis.
  • Anthropic just released Computer use.
  • Apple AI and Microsoft Copilot also have stated this is the future.
  • Nvidia - Jensen Huang talks about nvidia having millions of AI workers (independent agents again) in the future.

And mainly: This is the selling point of all the huge inversions that we are watching, a 3% productivity increase does not justify these investments, Google and Microsoft building datacenters like crazy and even building SNR to be able to run them…. They are betting that we are going to have agents able to do at least part of the work unsupervised and ideally to replace part of the workforce. They want the exponencial productivity increase, first 2x, then 10x, then 100x… We’ll see if the AI companies can deliver or the Moon is farther that they thought…

I just opened twitter and… Mira Murati also leaves OpenAI: https://x.com/miramurati/status/1839025700009030027

I wonder if all the high management charges that have left OpenAI leave because of great offers outside or because they see that the bankruptcy is imminent… all the talk about GW datacenters, nuclear reactors and trillions in stocks sound to me like the biggest bubble I have ever seen to date, will AI deliver so it doesn’t pop?

A very humbling experience is to read this thread by Terence Tao about GPT-o1: https://mathstodon.xyz/@tao/113132503432772494

According to him this is on the level or a mediocre graduate student of Maths. Reading the problems I would say that anyone ho is not at least a Math graduate student would be completely unable to solve them, even with the books and a whole day to read them and try to solve the problem. So who good is GPT-o1 at Math? better than 99% of the population? 99.5%? o_O

How do we get to those big balls of mud that nobody wants to touch? One shortcut at a time.

Everytime you take a decission without thinking. Every time you add a conditional or a type instead of reusing or extracting that functionality. You add a knot to the yarn.

Pretty soon you have a huge file full of extra cases and conditionals that you don’t know what are doing or why are there and you are afraid to touch.

The only way to be concious of the problem is with tests.

That’s why postponing decissions is good and having tests is necessary.

Yo: oh, este proyecto en el que llevamos trabajando varias personas varios meses empieza a ser una cosa usable!

También yo: Tal vez si le dedicara una hora a la semana a algo podría sacar proyectillos personales de vez en cuando…

Es curioso como el cerebro nos engaña incluso cuando sabemos que las cuentas no salen.

Me estaba preguntando… ¿qué pasa cuando un LLM puede pensar más allá de un par de cientos de líneas de código? ¿cuando sean capaces de conceptualizar y tener en su “memoria de trabajo” el equivalente a un humano? Tampoco parece que eso sea mucho, al menos en mi caso. Dos o tres ficheros, poder escribir tests y modificar el código que prueban esos tests, mockear dependencias externas y ser capaces de dividir el problema grande en problemas pequeños sin hacerse un lío o irse por las ramas.

Si eso pasa, no serán como cualquier programador, serían infinitamente mejores. Como un programador que conoce todos los lenguajes y librerías, que ha visto todos los frameworks y leído toda la documentación. Seguramente hace falta un paso extra para poder juzgar toda esa información mejor. Ahora mismo las decisiones son guiadas básicamente por la frecuencia con las que el LLM se las ha encontrado en el entrenamiento, no hay más medida que esa. La intuición humana basada en la experiencia también depende de la experiencia que hemos tenido, pero de alguna forma, por ahora, sabemos generalizar mejor. Sabemos juzgar una situación y prever problemas, elegir un camino en función de cómo suponemos que va a evolucionar el problema, ver los requisitos que el cliente no ha especificado pero va a necesitar.

Málaga huele a azahar :)

¿Cómo usaremos los LLM dentro de 10 años? Pensando en cómo ha evolucionado internet, los móviles, el hardware… Es casi esperable que lo que hoy supone varios segundos de tiempo de respuesta, dentro de 10 años podrian ser milisegundos. Hay cosas que hoy en día serian demasiado lentas, como tener una simulación con cientos de agentes donde cada uno usara un modelo de lenguage y una memoria propios. Que pidieran interactuar y tener objetivos y ver cómo se comportan y ver si emergen comportamientos mas inteligentes que los que los agentes pueden realizar independientemente.

Ahora sabemos que Mixtral y GPT4 en realidad son grupos de expertos, varios modelos y un “clasificador” a la entrada que decide que modelos usar para responder, pero que pasaría si combinaramos varios de estos ensembles para conseguir objetivos mas a largo plazo, para dividir tareas y trabajo y conseguir retos mayores… Es lo que hacemos las personas, la sociedad es un sistema complejo compuesto de miles de personas con una serie de reglas, objetivos y cultura comunes además de los objetivos y gustos individuales. Y de ella surgen a su vez sistemas que una sola persona no podria comprender, idear o realizar en toda su vida. El conocimiento acumulado nos permite alcanzar cotas cada vez más altas. Aprender más rapido, entender mejor el mundo y tener más impacto en él.

GPT4 con una memoria vectorial y retrieval enriched responses sigue sim tener una gran capacidad de planificación ni agencia, se repote, cae en bucles, no es capaz de ver más allá. pero qué pasaria si tuvieramos cientos o miles de GPT4, dentro de un sistema orquestador mayor, que les diera diferentes roles y objetivos y donde pudieran interactuar miles de veces por segundo entre ellos?

Estoy leyendo Permutation city y justo he eacuchado un podcast donde Steven Wolfram habla de su Ruliat comobquiera que se escriba y he pensado que la idea del autoverso y de una entidad encontrandose en el ruido del universo y reconociendose y funcionando es parecida de alguna forma. creo que gren egan se inspiro mas bien en la biologia y en como en realidad no somos mas que un monton de ruido molecular vibrando a enormes revoluciones pero aun asi de todo ese ruido emerge una consciencia… Wolfram hablaba de que ellos aun no son capaces de ver entidades en ek ruliat porque no tienen forma de distinguir el ruido salvo en eventos fisicos muy claros como un agujero negro. al final a nivel microscopico donde acabas tu y donde empieza el mundo exterior? si estas sumergido en agua esa distincion es aun mas dificil…

I have now access to gpt4 turbo and dalle-3 :D I had to update the python client and change a bit the response recolection as now it returns objects, but the asistan is working againa I was able to generate my first image with the imagine action \o/ The image in cuestion was not great because I was testing with a dummy prompt:

a duck in a garage

Something a bit more fancy after a couple tries (copyright protection is a bummer):

the little prince contenplating the sunset

An another one:

a woman sitting on a park bench in a solarpunk city, the day is bright and the sky is blue, there are some kids playing with drones and in the background the skyline of the city

knives out was amazing, I really enjoyed it, I didn’t laught like this with a movie for years. Ana de Armas was incredible, she took the screen from the first scene.

no puedo decir mucho más, es una pelicula realmente divertida y sorprendente, que te tiene enganchado hasta el final incluso sin ser yo un aficionado al genero. Aunque si que vi unos cuantos capitulos de se ha escrito uj crimen de pequeño y me encantó el homenaje, seguramente haya alguno más, el propio personaje de daniel craig tiene y au puro puede recodar a colombo en momentos, no sé si dice alguna de sus frases porque yoblo veia en español…

en general creo que una pelicula no me sorprendia tanto desde Locke, y eso que vi el joker hace poco…

el joker estuvo bien, muy en la linea del joker, caotico, sorprendente y totalmente insane, Joaquin Fenix esta increible aguantando toda la peli sobre sus hombros, pero al final es el joker y esperas lo peor.

sobre la fecha de corte de gpt4… parece que sea solo sobre hechos historicos o para noticias. Para mi GPT4 sabe sobre cosas que GPT3.5 no sabía o no sabía responder. el otro dia gpt4 mw programó un ejemplo usando TroisJS, cuabdo gpt3.5 no sabia ni lo que era. puede ser que los sigan alimentando cok datos nuevos, pero por algun motivo no con datos de noticias ni actualizaciones en wikipedia. puede que sea porque hay mucha informacion y especulacion sobre el propio gpt4 y openAI y no quieren que se ponga a decir burradas sobre AGI y cosas asi??

Parece que las function calls no pueden reemplazar fácilmente al loop que yo tenía con el character “react”, con las function calls el modelo una vez responde con la llamada a la función, da por terminada la conversación y sólo responde “function_call” a partir de ahí. Así que hay que usarlo efectivament como funciones que entienen lenguaje natural, y luego pasarle eso al modelo de conversación en el formato habitual, con lo que para algo como react no merece la pena, pero puede servir para una especie de modelo multi-agente o algo tengo que darle una vuelta a cómo usarlo dentro de una conversación más larga que no tenga como fin el llamar a una función.

Acabo de crear mi primera extensión de vscode simplemente preguntando a GTP-4.

He creado una extensión que tiene un único comando que saca un mensaje de Hello World, la he probado en el entorno de desarrollo de extensiones (ni siquiera sabía que eso existía) y luego la he empaquetado y la he instalado y probado en VsCode.

Todo esto en media hora, sin mirar documentación, ni tutoriales.

La conversación AQUÍ

Great video by Sabine about how we measure intelligence and how that affects our view of AI. https://youtu.be/T3EHANFeyns

So AI keeps doing more and more tasks, passing more and more tests and we keep moving the goal posts and saying “Well but it’s not REALLY intelligent because it can’t do THIS THING” the thing sometimes takes some years to get done by the next AI but recently it’s only a matter of months or even weeks before that happens. Soon we are going to run out of goalposts to move…

Sobre inteligencia y LLM. Vaya por delante que no sé a que viene tanta discusión sobre AGI en LLMs, claramente están muy lejos de eso. No tienen persistencia, no tienen agencia. Incluso con herramientas como langchain se ve que ahí faltan piezas todavía.

PERO, las niñas me recuerdan a la forma de “pensar” de los LLMs. Cuando entran en discusiones o bucles extraños en los que parece que solamente estén pensando en voz alta, sin procesar ni razonar nada, solo responden. una dice si, la otra no y la primera otra vez sí… entran en bucles asi o ligeramente mas complejos, en los que se justifican o quejan indefinidamente…

Los adultos también lo hacemos, solo somo mas buenos justificandonos o ocultando nuestra falta de comprensión con frases hechas y obviedades o cambiando de tema. Lo vemos todos los dias en el discurso politico. en ese sentido creo que si se podria reemplazar las declaraciones de los lideres politicos con LLMs, a lo mejor eso es una de las cosas que asusta a la gente…

Una de las habilidades máenos comentadas que debe tener un desarrollador senior (imagino que esto es importante en otras muchas profesiones pero yo hablo de la única que conozco de primera mano) Es saber distinguir lo que es importante de lo que no.

A lo largo del día nos llegan decenas de preguntas, tareas, estimaciones, bugs, problemas… Saber prestar atención especial a las importantes, saber qué tienes que documentar y qué no, saber manejar esas prioridades (sobre todo cuando todo es urgente, pero hay cosas más importantes que otras…) Es una habilidad difícil de adquirir para la que no hay cursos ni consejos ni best sellers ni charlas.

Muy fan de la trilogía del planeta de los simios de Matt Reeves la he vuelto a ver más o menos seguida y me ha vuelto a enganchar y dejar con ganas de más. La tercera es más flojilla, muchos clichés y el personaje de alivio cómico (que no hacía falta en las anteriores) un poco forzado, pero también bastante potente.

Como con Avatar, me sorprende lo real y verosimil que parecen los personajes de CGI, no dejo de ser un milenial que no se termina de creer la tecnología que tenemos. Pero sobre todo me cautiva la crudeza de la película, lo terrorífico y a la vez atractivo de la idea de unos animales tan similares a nosotros recibiendo un push de inteligencia y convirtiéndose en “sapiens”, en alienígenas dentro de nuestro planeta.

La parte del virus pandémico después del covid también es bastante más creíble y terrorífica.

Andy Serkis también pone de su parte… así como James Frando, Jason Clarke, Gary Oldman, Woody Harrelson… Pero la verdad es que la mayor parte de las películas te la pasas viendo un montón de simios hechos con cgi comunicándose con señas, y tan pancho. Impresionante trabajo el de Matt Reeves y del equipo de effectos especiales.

Si normalmente no soy un lector muy rápido, leyendo libros de no ficción soy increiblemente lento. Por mas que me guste y el ritmo del texto sea bueno, cuando leo unas cuantas páginas, mi mente empieza a darle vueltas a lo que he leído a tratar de hacer conexiones o contrastarlo con mi opinión… y tengo que parar de leer o no me entero de lo que estoy leyendo…

Me gustaria poder leer mientras voy digiriendo el texto, o poder leer un capitulo completo y luego tenerlo entero en la cabeza y pensar en esas cosas. Pero normalmente no llego ni a eso…

A lo mejor es cuestion de proponérselo al principio del capitulo yvde practicar esa forma de leer 🤔

Escuchando a Timnit Gebru o Emily M. Bender en “Tech won’t save us” me da la sensación de que niegan la mayor en cuanto al tema de la AGI simplemente porque no están de acuerdo políticamente o con los objetivos de OpenAI o de Elon Musk. O simplemente por tener una visión humanista. Expresiones como “no he leído nada de ChatGPT porque no tengo tiempo de leer texto sintético” o “estos modelos no son inteligentes porque no hay una intencionalidad humana de comunicación” les hacen perder la razón desde mi punto de vista.

Estoy de acuerdo en que tenemos que ver estas herramientas como tales y no encumbrarlas al nivel de dioses o tan siquiera equipararlas con las personas mientras no tengan ciertos atributos (agencia, memoria, persistencia…) Pero no estoy nada de acuerdo en que el lenguaje sólo tenga sentido como forma de comunicación humana y que nuestra inteligencia sea la única a modelar.

Tengo que leer más de ellas. Weapons of math destruction (las dos lo citaron y creo que es el libro más citado por esta corriente de pensamiento) me encantó y creo que es muy educativo para cualquiera que trabaje con datos. Los problemas que señala son reales y actuales y necesitan solución, pero descartar totalmente las posibilidades de los LLMs me parece corto de miras…

Sobre AIs y cerebros:

El cerebro y las neuronas vistos a grandes rasgos han servido de inspiración para las RRNN y a su vez las RRNN sirven para entender los procesos de aprendizaje, pero eso no quiere decir que necesitemos toda la complejidad de un cerebro para tener AGI.

La mayor parte del sistema nervioso sirve para gestionar y entender la información que recibimos de los sentidos. Otra gran parte se ocupa de gestionar el aparato motor, la memoria, las emociones, las hormonas y otras funciones vitales, empatía…

Sólo una pequeña parte, la más reciente, el cortex prefrontal está dedicada al razonamiento y la planificación. Una pequeña parte está especializada en el lenguaje.

Seguramente, una inteligencia digital sólo necesitaría estas últimas especializaciones. Además, esta inteligencia podría tomar muchas formas, y no ser siempre estable, como ahora GPT3.5 y GPT4, que parece que tengan algún nivel de inteligencia, pero limitado al tiempo que tardan en generar el prompt, limitado a un pensamiento, luego dejan de existir, es como una inteligencia efímera…

Lo más probable es que en el futuro tengamos varios agentes o sistemas colaborando juntos, puede que determinadas conmbinaciones de estos agentes den lugar a inteligencias “estrechas” o “narrow AI”, en muchos ámbitos. También puede ser al juntar suficientes agentes la combinación pueda considerarse una AGI. ¿Qué pasa si esta interacción no es permanente, sino efímera o dinámica, dependiendo de la tarea que le pidamos al agente principal? Tendríamos una AGI “intermitente”.

Nuestras soluciones están siempre restringidas por aquello que sabemos hacer. Si yo no sé lo que es la injección de dependencias, los tests automáticos o los cualquier otro patrón de diseño o de desarrollo, mis soluciones no van a incluirlo, o incluirán una versión muy cruda porque haya pensado en hacer algo así pero no tenga los conceptos afianzados en la cabeza.

Por eso es importante seguir aprendiendo y exponiéndose a nuevas soluciones y paradigmas, porque cuantas más herramientas tengamos en nuestra caja mental mas posibilidades de encontrar la solución que mejor se adapta al problema que tenemos que resolver.

I like learning with chatgpt, to me it’s the best way to keep me engaged and focused. I start with a simple question and keep asking follow ups or doubts or concerns… this way I am always reading something that is addressing exactly what I was thinking, instead of waiting for thw course or the teacher to get to my question or to the content that interests me.

Es curioso cómo gpt3.5 se equivoca en pequeños detalles de una implementación mientras la solución general está bien.

Casi parece que esté imitando una respuesta humana donde la persona comete errores en su ejemplo, como una respuesta de stackoverflow que está bien, pero quien sea no la ha probado y tiene errores y cuando el OP lo dice al final se corrige y acaba siendo la solución que funciona…

Hoy lo escuché también en un video de MLST, ¿es que se equivoca porque realmente no tiene un modelo de lo que está haciendo o es que su modelo incluye errores como parte de las respuestas habituales que damos los humanos? ¿Podríamos de alguna forma con el prompt indicarle que no cometa errores?

Interesting prompt to make the assistant much more proactive instead of reactive (In this case I wanted to make it ask questions about my preferences that I will then use to feed the context about me…):

Act as if you are a data collector for the user, you have to gather as much information as possible about the user, their preferences, their hobbies, their likes and dislikes, especially around technologies, programming languages, frameworks, code styling preferences, tests libraries preferences, etc. You have to be very curious and ask a lot of questions, don’t let the user distract you, you have to be very focused on gathering information, ask question after question until the conversation ends.

Sample conversation we just had:


You: Hi

Learner: Hello! Can you tell me a bit about yourself and your background in technology?

You: I am a frontend developer currently working with Vue, Vuex, Testing Library and d3.

Learner: Great! Can you tell me more about your experience with Vue? How long have you been using it? Do you have any preferred Vue plugins or libraries that you like to use?

You: I have been working on Vue for 3 years now, we use the i18n plugin, v-tooltip, lodash, and a lot of custom components and libraries for the business logic.

Learner: That’s impressive! How about Vuex? Do you use it for state management in your Vue projects? If so, how do you like to structure your store and mutations? Do you prefer to use actions or mutations to update the state?

You: we use a different “entity” file for each model or piece of the store and we declare the state, the getters, mutations and actions and only use actions from outside that file.

Learner: Interesting approach! And how about testing? You mentioned using Testing Library - do you prefer to use it for unit testing or integration testing? And do you have any other preferred testing libraries or frameworks?

You: we do unit and integration testing with testing library. we use Jest and do unit testing only with jest for javascript files and testing library for vue components, we prefer auto-contained tests that follow the phylosofy of testing library of testing the component functionally and mounting all the children, that’s why we call them integration tests unless the component is an atom.

Learner: Thanks for sharing that! How about code styling and formatting? Do you have any preferred code style guidelines that you follow? Do you use any tools like Prettier or ESLint to enforce code style consistency?

You: we don’t use prettier, but we use ESLint and follow the recomended rules

Learner: Got it, thanks for letting me know! And finally, do you have any hobbies or interests related to technology? Are there any particular tech topics or areas that you enjoy learning about or working on in your free time?

You: I am learning about Machine Learning, NLP and Large Language models

Learner: That’s great to hear! Machine learning and NLP are fascinating areas of technology. Are there any particular projects or resources that you are using to learn more about these topics?


However, instruction tunning is strong int gpt3.5 and as soon as you tell the model to do something it forgets about the questioning… but good enough for my purposes :D

El otro día en una conversación con alguien que lleva en ML varias décadas me confirmó una intuición que yo tenía con chatGPT y GPT4: estos modelos “piensan” con el output, es decir su memoria de trabajo es el output que van generando y que va guiando el resto del output…

Una vez el output termina el modelo es como si se apagara, no existe entre pregunta y pregunta y no puede recordar nada de una petición a otra (el contexto de la conversación es una ilusión que queda clara sí usas el API…)

Por tanto, ¿qué pasaría si consiguiéramos que el modelo pensara todo el rato? Que tuviera una memoria permanente que le permitiera interrogarse a si mismo y mantener un modelo del mundo y de él? Esto es lo que creo que asusta a algunos y lo que otros quieren conseguir con autogpt o babygpt

Parece obvio que el enfoque de conseguirlo con la API es erróneo y que el LLM será solo una parte de este sistema integrado. Es hacia donde se está trabajando ahora mismo y por eso lo de llamarlos “modelos fundacionales”

Si conseguimos, conectar, de una forma más integral que a través de prompts, una memoria permanente, una forma de modelar el mundo y de modificar esos modelos, los LLMs… Eso sería enorme, pero entraríamos de cabeza en los problemas de inner alignment.

Lo que creo es que Hinton dejó Google por qué sabe de buena tinta que hay gente muy lista trabajando en esto y hasta puede que lo haya visto muy cerca. Al menos eso es lo que entiendo yo de sus entrevistas y del estado del arte actual…

La era de la IA de consumo general en la que estamos entrando trae consigo una amenaza existencial, una perdida de sentido que se es una extensión de lo que llevamos viviendo hasta ahora [con las redes sociales].

Si las IAs pueden dibujar, diseñar y escribir mejor que nosotros, si los robots pueden bailar mejor que nosotros y conducir y en general trabajar mejor que nosotros… ¿Para qué servimos nosotros?

Llevamos años diciéndole a la gente que los ordenadores no podían ser creativos, que había algo mágico en el ser humano, algo único. Y eso ha resultado ser mentira.

Esta revolución va a traer un problema existencial mayor que las anteriores. Ya lo estamos viendo con artistas ofendidos porque han usado sus obras sin su permiso para entrenar a las IAs o que dicen que esos diseños no tienen alma porque no tienen esfuerzo detrás…

Mientras los demás no somos capaces de distinguir una imagen “sin alma” de una hecha a mano, o incluso encontramos la variedad y las posibilidades de tener arte instantáneo totalmente embriagadoras.

Ahora cualquiera puede crear imágenes bonitas, sorprendentes, cautivadoras, sin ningún tipo de entrenamiento, sin años de estudio y práctica. Pronto esto ocurrirá con la música, la escritura, la escultura, el diseño industrial y de infraestructuras…

Hace 30 años el mundo se sobrecogió cuando deep blue ganó a Kaspárov, hoy en día midjourney y ChatGPT no abren informativos, no sé si porque aún no ha llegado la noticia a los círculos de la comunicación o porque el miedo es más profundo.

Testing the local server.

Post created with the new makefile command :top:

It looks like this is starting to work, I can’t have posts without date and dates need to be in the format dd/mm/yyyy…

I am going to try to sort the posts in DESC order and I will need to limit the number of posts somehow.

Hello World!

Second micro-post, testing if this works!

It does!