Lokale KI statt Cloud? Wie private AI-Modelle auf dem eigenen Rechner laufen

[00:00:00] Speaker A: Willkommen zurück beim Podcast gemeinsam mit KI. Wir hatten eine kurze Pause, wir haben zwei Wochen jetzt keine Folgen aufgenommen aus verschiedensten Gründen. Jetzt sind wir zurück, gerade in einer Zeit, wo total viel passiert, was KI angeht. Es geht nämlich immer mehr um agentisches Arbeiten und KI, die selbstständig loszieht und Aufgaben erledigt. Und wenn so eine KI rund um die Uhr für einen arbeitet, dann wird die teils auch relativ teuer. Das andere ist natürlich, dass die Daten irgendwo hingehen und hinfliegen. Das haben wir auch schon öfter besprochen. Deswegen haben wir uns heute das Thema ausgesucht. Wir wollen mal darüber sprechen, wie es ist, wenn man KI lokal laufen lässt, was das für Vorteile hat, vielleicht auch, was das für Nachteile hat. Dazu habe ich heute zwei Leute mit im Podcast, den Martin. Hallo. [00:00:44] Speaker B: Hi. [00:00:45] Speaker A: Und den Uli. Grüß dich. Du hast das Thema so ein bisschen angestoßen. Erzähl doch mal kurz. [00:00:50] Speaker C: Ja, hi Hannes. Hi Martin. Ich habe jetzt die letzten Wochen mich erst mit lokalem Stack beschäftigt und habe hier diverse Sachen ausprobiert, weil ich ja immer sehr paranoid bin, was Daten, Datenhandling und so angeht. Und da hätte ich Lust, mal meine Erfahrungen jetzt hier am Anfang mit euch zu teilen und mal gucken, was ihr davon hält. [00:01:13] Speaker A: Ja, sehr gut. Martin, du hast auch ein bisschen was Erfahrung mit lokalen KIs, aber eigentlich auch nur auf sprachlicher Ebene, oder? [00:01:21] Speaker B: Ja, genau. Ich hab mir von Claude mit dem neuesten Modell und dem MCP Server lokal ein Setup gebaut, wo ich OpenVHispa nutze und einfach nicht mehr Windows Spracherkennung oder irgendwas, was vielleicht Datenbeziehungen außerhalb des lokalen Computers nutzt, einfach nur lokal habe. [00:01:45] Speaker A: Also bei dir geht es auch hauptsächlich darum, deine Daten ein bisschen unter Kontrolle zu halten. Genau, Was ein legitimer Grund ist, sich zu überlegen, wie viel man in die Clouds schickt und wie viel man lokal machen will. Deswegen würde ich sagen, ich fahre jetzt das Intro ab und dann geht es [00:02:00] Speaker C: schon los mit der Folge Künstliche Intelligenz verändert unsere Welt. Was macht das mit uns? Finden wir es heraus, gemeinsam mit KI, der Podcast des GMKI e. [00:02:11] Speaker B: V. [00:02:17] Speaker A: So Uli, dann will ich dich direkt mal verhaften, einmal ganz kurz für den Laien, der hier zuhört, zu erklären, was bedeutet das jetzt, eine KI lokal laufen zu lassen. [00:02:28] Speaker C: Ja, genau. Also was ja normalerweise passiert ist, Wenn man mit ChatGPT, sagen wir jetzt mal, sich unterhält, dann gibst du das an deinem Gerät ein, ob es jetzt der Computer ist oder das Handy, die Daten werden dann an OpenAI, der Hersteller von ChatGPT, geschickt auf deren Server, dann wird das von da an das KI Modell weitergegeben. Das KI Modell überlegt sich was und gibt dann die Antwort übers Internet an mich zurück. So und das hat natürlich diverse datenrechtliche Implikationen und auch Problemchen, würde ich sagen, weil alles, was du mit der KI austauschst, ist erstmal grundsätzlich per Definition bei OpenAI auf dem Server oder wenn du andere KIs nutzt, halt bei den anderen auf dem Server. Und das sind natürlich Daten, die können ja unter Umständen hochpersönlich sein und zwar in einem Grad, was noch darüber hinausgeht, wie zum Beispiel man das über Google oder so eingibt, wenn man Google Suche macht, das ist ja auch nur sehr begrenzt privat, aber wenn man das nochmal mit der KI sich unterhält, da sind ja noch mal ganz andere Implikationen dabei. So und um das jetzt dem vorzubeugen sozusagen, um Herr seiner Daten zu bleiben, wie der Martin vorhin das so schön formuliert hat, macht man das jetzt alles lokal. Das heißt nicht macht man jetzt, also kann man etwas lokal machen und das heißt, man lädt sich dieses ganze Modell, was dann so mehrere Giga, also dieses KI Modell quasi das KI Gehirn, das lädt man sich auf seinen lokalen Computer runter und quatscht dann lokal mit diesem Gehirn sozusagen. Also das ist halt eine riesen Datei und dann braucht man halt ein bisschen was, um das laufen zu lassen an Software, aber nur sehr minimal und und dann kann ich mich mit dem Ding unterhalten, ohne dass irgendetwas eine Information, meinen Rechner verlässt. Also ich kann mich dann komplett vom Internet abhängen und mich da mit diesem Ding unterhalten. [00:04:30] Speaker A: Das muss man aber ein bisschen einschränken, glaube ich. [00:04:33] Speaker C: Ja, ich glaube auch ChatGPT kriege ich [00:04:35] Speaker A: jetzt nicht mal eben so installiert, wie ich Word installieren würde auf meinem Computer. Vor allem das erste, was ich ja weiß, ist so ein KI Modell, du hast es eben kurz angedeutet, das sind Milliarden an Parameter und dementsprechend auch Milliarden an Bytes, also Gigabytes groß. Was brauche ich denn für eine Hardware, wenn ich das machen will, so ein Modell bei mir laufen lassen? [00:04:59] Speaker C: Ja, vielleicht muss ich jetzt noch mal ein bisschen weiter ausführen jetzt, dass zum Beispiel ChatGPT 5.4, was ja jetzt gerade, glaube ich, vor ein paar Tagen auf den Markt gekommen ist, online gegangen ist, das kannst du natürlich nicht das Ding einfach dir jetzt auf den Rechner ziehen. Erstens hat man nicht die Hardware dazu, zweitens ist es einfach nicht öffentlich, die geben das natürlich nicht raus. Aber es gibt das sogenannte, wenn man jetzt bei ChatGPT bleiben will, GPT, OSS, das sind halt Open Source Modelle, das ist auch das Modell, was hinter GPT steht, aber als Open Source Modell. Das heißt, das hat diverse Einschränkungen. Also erstens nicht so groß, das heißt insgesamt sind die Fähigkeiten eingeschränkter in Bezug auf Denken und auch einfach das Wissen. [00:05:46] Speaker A: Allgemein würde man sagen, es ist nicht so schlau. [00:05:48] Speaker C: Es ist nicht so schlau, so kann man mal ganz ganz pragmatisch sagen. Ja und es kann halt nicht so groß sein, weil wenn man in Parametern spricht, dieses modell da von ChatGPT hat wahrscheinlich, man weiß ja nicht, aber so 500 Milliarden Parameter. Ich kann auf meinem lokalen Rechner, was schon der absolute Top End Gaming Rechner ist, sage ich mal, ich benutze nicht für Gaming, sondern für die Arbeit, D Animation und so. Also ich habe da eine 4090 Grafikkarte drin, also richtig High Spec mit 24 Gigabyte VRAM, ich quatsche hier schon zu viel Jargon, aber das ist High Spec Grafikkarte und ich kann statt dieses 500 Milliarden Parameter Modell, kann ich in derselben Geschwindigkeit ungefähr ein 20 Milliarden Parameter Modell laufen lassen. Und jetzt kann man also 520, wenn man die Zahlen sich schon mal vergleicht, da merkt man schon, oh, da ist was auf der Strecke geblieben an, sag ich mal, Intelligenz und so weiter. Aber man muss halt auch gucken, wofür man die Sachen braucht. Und was ist es halt immer ein Abwägen, was ist mir wichtiger jetzt, dass ich das absolute Hammermodell habe, was alles kann mit Reasoning und Imageerkennung und hast du nicht gesehen oder will ich nur zum Beispiel mit meinen eigenen Daten reden und mir eine Zusammenfassung oder bestimmte Daten rausholen aus meinem Datenkorpus und da kommen halt das Zwischenspiel zwischen online und offline raus. [00:07:18] Speaker A: Ja, das ist nämlich ein Punkt von dir, Martin, du hast vorher noch gesagt, naja, ich will ja schon irgendwie mit dem besten Modell arbeiten und wenn alle irgendwie ChatGPT benutzen und da steckt GPT 5.4 drin oder aber noch mehr, wir haben uns ein bisschen mit agentischem Arbeiten beschäftigt, das heißt, der muss irgendwie planen und Aufgaben erledigen. Da ist im Moment von Claude das Modell Opus das wohl beste, was das kann. Wenn ich jetzt versuche da so lokal irgendwie mit so einem Modellchen vor mich hin zu basteln, dann funktioniert es nicht so richtig, oder? [00:07:50] Speaker B: Ja, ist schon ein Unterschied. Also ich habe ein anderes Setup als Uli. Ich habe halt, ich setze Halt nicht auf OpenAI, sondern auf Antropic an der Stelle, weil die tatsächlich auch eine Einstellungsmöglichkeit haben für alle Modelle, dass man entweder einzelne Chats löschen kann sozusagen soll doch nicht eingehen in den Datenbestand, der dann bei der Firma liegt, in dem Fall bei Antropic. Und du kannst auch generell ausschließen. Das haben sie aber erst seit Oktober letzten Jahres, dass gar keine Daten ausgehen. Du bist immer noch auf deren Server, Aber sie sagen zumindest Datenschutzeinstellungen gibt es ein Einstellungsmenü, das bleibt dann nicht bei denen. [00:08:34] Speaker A: Das sagen die auf jeden Fall. [00:08:36] Speaker B: Sie verwenden es nicht zum Training. Ob das jetzt juristisch stichhaltig ist im Sinne von die wissen gar nichts, das bleibt offen. [00:08:44] Speaker C: Aber das ist ja das Problem. Man weiß ja nicht, was die mit den Daten machen. Schön und gut, was die da sagen und so, aber streng genommen, also da ist für mich auf jeden Fall der Cut off. Aber die beiden Sachen, die du genannt hast, die kannst du ja genauso bei ChatGPT auch machen. Das kam mir jetzt gerade so vor, als hättest du gesagt, das sein Argument von dir, warum du Anthropic benutzt. Aber genau diese beiden Sachen, dass man das alles löschen kann und auch, dass die Daten nicht zum Lernen verwendet werden sollen, das kann man halt da auch anhaken. Habe ich auch natürlich standardmäßig angehakt. [00:09:18] Speaker B: Okay. [00:09:20] Speaker A: Ja, wobei das hatten wir auch schon mal vor einer Weile in dem Podcast, da gab es eben dieses Gerichtsurteil, da hat glaube ich die New York Times gegen Open geklagt und das Gericht hat entschieden, nee, nee, wir sind jetzt hier in der Beweisführung, Open muss alle Chats speichern und uns offenlegen. Da können wir anhaken, was wir wollen. Wenn ein US Gericht das irgendwie sehen möchte, dann sehen die auch, was ich an Themen gegen meine Pickel Anfragen an gestellt habe. Da kommen wir so nicht dran. Und deswegen ist das glaube ich eine gute Idee, wenn man Naja, Google weiß auch alles über mich. Google weiß natürlich, was ich alles gegoogelt habe, aber wenn ich mit einem KI Modell arbeite, dann gebe ich vielleicht noch mal mehr Daten ein, vielleicht auch Dokumente, vielleicht möchte ich da auch beruflich arbeiten. Das ist ja auch nochmal ein ganz anderes Feld, wenn wir irgendwie über Firmen reden, die gewisse Sicherheitsstufen erfüllen müssen, die das vielleicht gar nicht wollen, dass das zwingend immer über diese Server geht. Und dann wäre so ein Open Source Modell eigentlich die einzige Möglichkeit. [00:10:27] Speaker B: Ja, oder wir schauen, es gibt ja noch die Variante, die Apple fährt, die sagen halt, Apple Intelligence ist Teil von dem Datenschutzlevel, was man mit Apple versprochen bekommt. Und die haben ja einen Deal mit Google gemacht, dass sie dann sozusagen einen im Apple Universum laufendes Modell haben, immer das Neueste von Google, was weiß ich, wie die das dann nennen, aber das scheint der Deal zu sein und das wollen sie ja ausrollen, dass dann eben Apple Intelligence bedeutet, du hast dieselbe Sicherheitsstufe wie für alle Apple Kommunikation oder auf Apple Devices laufende Kommunikation und wird halt hoch verschlüsselt, blablabla. Und ja, es ist wie immer dann, naja, wenn jemand den Schlüssel findet oder vielleicht doch hat, ist es dann doch wieder offengelegt. Aber erstmal ist es zumindest von der Firma das Versprechen. [00:11:26] Speaker A: Ja, und trotzdem bist du in der Firma drin, trotzdem bist du dann bei Apple drin und deine Daten werden trotzdem auf so einem Server liegen. Das ist ja auch das Versprechen von, oder das, was viele Leute, was ich auch persönlich jetzt bei so einem agentischen System wie Open Claw eigentlich am spannendsten fand, war, dass das nicht das Modell, das schickt es immer noch in die Cloud, aber zumindest die Daten, die ich eingebe und die Dokumente, die es speichert, die speichert es auf meiner Festplatte. Und das heißt, wenn jetzt aus irgendeinem Grund mein OpenAI Account gelöscht wird oder ich da nicht mehr dran komme, dann habe ich trotzdem noch eine Festplatte, die kann ich tatsächlich physisch aus meinem Gerät ausbauen und da sind alle Dateien und alles, was ich erarbeitet habe, drauf. Das ist ein großer Vorteil, weil ich mich eben unabhängig mache von jeglicher Firma, egal welches Modell ich benutze. [00:12:18] Speaker C: Genau das. Also da muss ich direkt drauf aufspringen, weil das natürlich auch ein ganz wichtiger Punkt dabei ist und auch ein Hintergedanke von mir, diese Unabhängigkeit von großen Plattformen. Also ich meine, lass mal ehrlich sein, Die KI, also ChatGPT in meinem Fall, das ist echt so wichtig geworden, das benutzt du ja mehrfach am Tag auf der Arbeit mehr oder weniger die ganze Zeit privat auch. Ich füttere da halt ohne Ende Daten rein und ich werde davon abhängig und ich bin schon in gewissem Maße davon abhängig und das war mir sehr sehr unangenehm, ist mir nach wie vor noch unangenehm und da ist nach wie vor noch Daten da drin. Aber ich bin halt eben gerade dabei zu gucken, wie ich das abwägen kann. Die wichtigen Daten habe ich natürlich da nicht reingegeben in ChatGPT oder ganz persönliche eben nicht oder also sehr viele Daten nicht. Ich bin da sehr, sehr vorsichtig, was da reingeht. Aber wenn ich ein System lokal laufen habe, dann kann ich da wirklich ja alles reingeben. Ich weiß, das verlässt nicht meinen Rechner. Das heißt, ich muss mich auf keinen verlassen, ich muss mir nichts durchlesen, ob da irgendwas Rechtliches ist. Nein, das Ding, da klemme ich mich ab vom Internet und kann meine intimsten Beziehungsprobleme mit den Dingen besprechen, sage ich mal ganz salopp. Und also was ich jetzt, um noch mal kurz zu sagen, was ich gemacht habe über die letzten zwei Wochen, ist halt meine, ich habe seit 2012 habe ich meine Notizen eben digital festgehalten und seitdem auch nichts gelöscht und jetzt habe ich diese Notizen eben, die kann ich jetzt völlig problemlos und da sind halt wirklich auch sehr private Sachen drin, die kann ich einfach an die KI weitergeben und mich darüber mit der unterhalten. Also ich bin noch an den Anfängen, ich habe noch nicht alles reingegeben, aber halt schon mal einen Korpus an Daten, was schon super interessant ist. Also ich meine 99 Prozent von deinen Notizen vergisst du ja, ich weiß ja nicht, wie bei euch ist aber zumindest bei mir so. Und es war schon jetzt mal insofern hilfreich, weil ich muss jetzt wieder den Pass meiner Tochter, den deutschen Pass meiner Tochter erneuern. Und natürlich habe ich die blöde Geburtstagsurkunde verlegt gehabt. Ich war eigentlich auf der Suche nach was anderem, die Passerneuerung kommt, muss ich wieder machen und habe ihn, ich weiß gar nicht genau, was ich gefragt habe, aber auf jeden Fall sagt er ja immer, hier ist aber auch eine Geburtsurkunde. Hast du mal hier die abgespeichert von deiner Tochter? Und ich richtig, stimmt, ja, zack, da reingegangen und die rausgeholt halt das gescannte Bild da. Also ich würde ja niemals im Leben solche Arten von Daten irgendw rausgeben und da sind Tausend Beispiele, die man. Also ich bin echt, ich bin super excited, ich bin ganz aufgeregt, ich will da mehr und mehr Daten jetzt reingeben, weil ich will über mich erfahren, was habe ich die letzten zehn Jahre gemacht so ungefähr und was sind da noch für nützliche Daten drin und die dann verknüpfen mit meinem alltäglichen Leben. Das Ding weiß ja dann wirklich viel über mich und wirklich wichtige Sachen über mich und kann mir dann hoffentlich da viel helfen. Kommt natürlich auch mit einigen Problemchen und Nachteilen, aber da können wir auch drauf eingehen. Aber diese Möglichkeit einfach, die ist für mich riesig groß und es war wirklich ein totales. Ich war ganz aufgeregt, als ich mich das erste Mal dann mit der unterhalten hab letzte Woche sozusagen, nachdem so ein paar Daten da drin waren, weil es ein ganz anderes Ding ist, als nur dieses, sage ich mal, recht synthetische, was ich da mit ChatGPT mache, weil ich da halt sehr vorsichtig mit meinen Daten bin. Bin ich mal gespannt, was noch kommen wird. [00:16:02] Speaker A: Ja, also hast du im Grunde, das kann man ja wirklich, du hast es gerade angesprochen, weiterdenken, du hast jetzt alle deine Notizen reingepackt. Theoretisch könnte ich mir ja ein Modell lokal installieren und meinen kompletten, also ich habe hier alte Festplatten, da habe ich mein Leben seit auch wahrscheinlich 2012 oder noch früher gebackupt von Universitätsunterlagen, die ich wahrscheinlich auch sowieso nicht mehr brauche, über alle möglichen Kopien von Dokumenten und das kann so eine KI komplett auslesen und dann kennt die mein komplettes Leben. Ich meine, man könnte jetzt sagen, naja, die andere Hälfte meines Lebens steckt in Google Drive, das ist, Google kennt mein Leben wahrscheinlich genauso gut. Aber der Punkt ist, glaube ich, klar, also wenn man das möchte und ich ziehe jetzt noch mal das Bild rüber zu einem Unternehmen, was definitiv irgendwie Sicherheitsauflagen erfüllen muss und da geht es dann auch nicht irgendwie um eine Festplatte voll mit alten Dokumenten, sondern um komplettes Firmenwissen und dann macht so ein lokales Modell schon sehr viel Sinn. Ich möchte dich aber gleich noch mal drauf festnageln, Uli, dass wir das noch mal ein bisschen genauer beschreiben, auch für den Laien, wie man sowas denn jetzt aufsetzt. Ja. [00:17:13] Speaker B: Was nutzt du als Datenbank zum Beispiel? [00:17:16] Speaker C: Also erstmal der erste Schritt ist erstmal faszinierend und super einfach. Olama. [00:17:24] Speaker B: Was ist das Modell? [00:17:26] Speaker C: Olama ist die Plattform von Meta. Das ist einfach eine Software, die du auf deinem Rechner installierst. Das ist nur ein Framework, um dann auf die Modelle zugreifen zu können. Doppelklick, also Doppelklick auf die Software und zack hast du erst mal so ein Fensterchen, was ähnlich aussieht wie ChatGPT und dann steht da unten hier ChatGPT runterladen bzw. GPT OSS. Das ist diese Open Source Version von GPT. Da drückst du da drauf. Gut, dann lädt der Erstmal, ich glaube 10 GB. Und wenn es dann einmal auf deinem Rechner ist, dann kannst du hier Internet ausmachen und dann kannst du dich mit den Dingen schon unterhalten. Feierabend. So, das ist erstmal, das ist mit null Aufwand wirklich gemacht. Also jeder, der schon mal eine Software aus dem Internet installiert hat, kann das machen. [00:18:18] Speaker A: Ja, wobei jetzt will ich aber sagen, also Gigabytes große Modelle, das ist jetzt nicht ganz ohne Aufwand Und du hast auch gesagt, du hast einen ziemlich guten Computer. Was braucht man denn da? Also so ein richtig guter Gaming PC, was du da hast mit der Grafikkarte, da wirst du wahrscheinlich schon mal locker irgendwie investiert haben, wenn nicht sogar mehr, oder? [00:18:37] Speaker C: Ja, ja, also der ganze PC. Ja, ja, ja, nördlich davon. [00:18:40] Speaker A: Was ist denn so die Mindestanforderung? [00:18:42] Speaker C: Mindestanforderung kannst du so nicht sagen, weil du kannst halt immer kleinere Modelle auch nehmen. Das heißt zum Beispiel Gemini, da gibt es dann ein 1 Milliarden Parameter Modell, das kannst du auf jedem Notebook laufen lassen. Aber jetzt kommt der Martin natürlich und ja, ja, Moment mal, dann ist er aber auch total dumm. Das stimmt doch. Also das stimmt auch. Das heißt, es ist natürlich die Frage, wofür man das benutzen will, aber um über deine Daten zu gehen und dich mit deinen Daten zu unterhalten, reicht. Das hat auch seine Grenzen, muss ich sagen. Also ich hatte schon, ich habe schon ein paar Experimente gemacht mit einem Milliarden Parametermodell B heißt das dann One Billion? Da hat der einfach Sachen tatsächlich einfach nicht gefunden, Also derselbe Datenkorpus. Und dann habe ich das Modell ausgewählt und ihn was gefragt, was ist meine Steuernummer hier so und so und hatte gesagt, keine Ahnung. Ja, und dann habe ich aber das größere Modell genommen, was dann Da gibt es 4 Milliarden und dann 7 Milliarden und dann 12 Milliarden, das heißt, die haben immer ganz nette Abstufungen, die kannst du auch dir alle runterladen, alles überhaupt frei zugänglich und super einfach zu machen und dann weiß der mehr, findet mehr und du kannst dich halt besser mit dir unterhalten. Und ich sage mal, da gibt es für jede Hardware, gibt es da so ein Paket und ob das dann für jemanden ausreichend ist, das muss ja dann erst mal selber entscheiden. Aber das kannst du ja machen, wie gesagt, mit diesem Doppelklick. Aber ich muss schon dazu sagen, also Vorsicht, wer an ChatGPT gewöhnt ist und dann erwartet, dieselbe Qualität zu bekommen, der muss ein bisschen aufpassen, vor allem wenn man so hochkomplexe Sachen macht, wie irgendwelche, weiß ich was, juristischen Texte durchgehen oder ewig lange sich unterhält, weil dann geht er auch vom Kontext ab und so weiter. Aber was ich sagen will ist, es ist möglich einfach runterladen und selber ausprobieren, dann kann man schon mal die Qualität von diesen Dingern ein bisschen einschätzen, aber dann hat man noch keine Notizen da drin, keine Datenbank und sowas alles. [00:20:35] Speaker A: Ja, wie kriegt man jetzt seine Datenbank dann da rein? Wie hast du das gemacht mit deinen Notizen? [00:20:41] Speaker C: Also das nächste Tool, was ich da installiert habe, heißt Open WebUI, das ist halt auch Open Source und das greift halt auf diese Modelle von Olama. [00:20:55] Speaker A: Das ist im Grunde so eine Oberfläche, das ist dann wie ChatGPT funktioniert genau [00:21:00] Speaker C: aus wie ChatGPT funktionieert genauso, aber um einiges besser zu individualisieren, anzupassen. So und mit 1000 Möglichkeiten, die du bei ChatGPT nicht hast, da könnte ich jetzt auch noch drauf eingehen, aber ich will hier nicht zu detailliert werden, aber in dieses Ding kannst du dann quasi dein Wissen reinladen. Das heißt, du hast dann, das sind einfach Ordner, also Notizen. In meinem Fall habe ich die Notizen als entweder Textdateien, also in meinem Fall MD Dateien, das ist nichts anderes als Textdatei und die habe ich auf einem Rechner in einem Ordner sortiert, halt in Unterordner und da kann ich mir dann halt entweder einzelne Notizen da rein tun oder ich mach ganzen Ordner. Also das ist sehr komfortabel. Und was das Ding dann macht, dieses Open Web UI, wenn es diese Datei importiert, also diese Notiz, sagen wir mal, also in meinem Fall war es 3000 Notizen, sind das jetzt insgesamt gewesen, also 3000 individuelle Dateien, die ich noch nicht alle da reingeladen habe. Ich habe da so ein bisschen kuriert und bin jetzt erst bei ein paar hundert, weil ich immer noch am testen bin. Also die kannst du halt da reinladen und beim Reinladen wird das dann in so eine genannte Vektordatenbank schon übertragen. Das heißt, du hast dann sofort das in einem Format, was die KI eben dann halt sofort zugänglich hat sozusagen. Und so funktioniert das. Also das ist dann der nächste Schritt. Und dann fängt es aber auch an, da muss man schon Interesse mitbringen, sage ich mal, um das dann sich anzugucken mit verschiedenen Modellen. Welche Informationen gebe ich da rein, was kriege ich da raus? Also da bin ich auch immer noch in der Testphase und werde ich wahrscheinlich auch noch monatelang in der Testphase sein. Aber es werden halt immer mehr Daten da reinkommen und ich werde mich immer mehr, ich werde immer mehr wissen über mich selbst, über meine Notizen in der Vergangenheit und mit welchen Modellen ich da jetzt wie drauf zugreifen kann. Hat das jetzt einigermaßen Sinn gemacht? [00:23:05] Speaker A: Ich glaube schon, aber ich glaube, die Kritik hast du jetzt auch schon angedeutet, Martin, Wie siehst du das, wenn man mit so einem einfachen kleinen Modell arbeitet und es klingt halt auch alles nicht so richtig nach Nutzerfreundlichkeit, es klingt ein bisschen nach was für Bastler, für Enthusiasten und für [00:23:26] Speaker B: ein cooles Szenario. Wenn man jetzt, ich sag mal, persönliches Wissensmanagement und mit einem hohen Datenschutzanspruch man sowas realisieren möchte, ist glaube ich, Uli gut unterwegs. Ich finde die Hürde relativ krass, also nördlich von 3000 Euro. Das ist jetzt, also wenn ich mir für die Hardware, wenn ich mir als, [00:23:47] Speaker C: ne, muss ja nicht, also vielleicht ist das vielleicht das falsch rüberkommen, muss ja nicht. Also ich meine klar, kleinere Modelle, kleinere Hardware, kleinere Modelle und wie gesagt, ausprobieren kann es jeder und ob das dann nützlich ist ohne Verstand, ohne, sorry, dass ich jetzt unterbreche, aber ohne einen technischen Verstand kann man zumindest ausprobieren, ob sein Laptop denn ausreichend ist. Und das Problem ist, wenn du halt zu große, du kannst jegliche Modelle da reinladen, nur das wird dann halt kriechend langsam. Wenn du viel Zeit hast, dann kannst du auch so ein 30 Milliarden Parameter oder so 70 Milliarden Parameter Ding, aber [00:24:22] Speaker B: das antwortet dann immer langsamer ja und [00:24:24] Speaker C: dann ist hinterher bei einem Wort pro 10 Sekunden oder sowas und das macht dann gar keinen Spaß mehr. Also Ich krieg noch 70 Milliarden hin, aber das ist dann ein Wort pro Sekunde oder sowas dann aber wie gesagt, eine Milliarde geht auf jedem Laptop. Sorry. [00:24:41] Speaker A: Mir ist jetzt aber immer noch die Frage offen, wie viel Intelligenz möchte ich denn haben? Also möchte ich das allerbeste Modell wirklich benutzen, weil ich weiß, dass, weiß ich nicht, Gemini mir direkt aber auch die Internetinformationen mit rauszieht oder weil Opus mir tolle Sachen planen kann oder komme ich mit reiner Textarbeit, mit meinem persönlichen Wissen andersrum gefragt, Was ist der Anwendung, also was ist der konkrete Nutzen für eben so kleinere Intelligenz? [00:25:10] Speaker C: Also wie gesagt, sich mit dem eigenen, die Notizen, die man gemacht hat in der Vergangenheit, sich zu unterhalten. Also das ist ja schon mal ein riesen Mehrwert. Und was ich denke ist, dass ich werde nie nur das eine oder das andere nutzen, wenn ich halt wirklich private Fragen habe, die ich nicht mit dem großen Modell im Internet besprechen will, dann mache ich das eben lokal und wenn ich dann nicht mehr weiterkomme, dann gucke ich halt, inwieweit ich das anonymisieren kann und da weitermachen kann. Und wenn es große Aufgaben sind, wie keine Ahnung, Marketingplan erstellen oder sowas, wo ich halt wirklich ein großes Modell für brauche, dann muss ich halt auch wieder da rausgehen. Das heißt, es ist immer so ein Geben und Nehmen und natürlich, wer sich um Privatsphäre schert und dem das wichtig ist, da kommst du nicht drumrum. Da ist immer ein bisschen mehr Arbeit natürlich dabei und ich bin jetzt mal gespannt, wie das sich in Zukunft erweitern will. Ich bin wie gesagt noch ganz am Anfang. Es könnte auch passieren, dass ich sage in drei Wochen Alter, das geht ja gar nicht oder der ist ja viel zu aufwendig oder daran habe ich überhaupt nicht gedacht, dass das so und so ist. Oder es ist halt völlig unpraktikabel. Also ich sag mal, der Drops ist noch nicht gelutscht. Vielleicht können wir dann nächsten Monat, vielleicht machen wir nochmal oder zwei Monaten oder sowas noch mal einen kleinen Podcast und ich erzähle dann mal, wenn ich Profi [00:26:29] Speaker A: bin, wir muss uns auf jeden Fall auf dem Laufenden halten. Wie ist es mit den Modellen? Du hast die ganze Zeit jetzt von dem GPT, also die Open Firma von auch ChatGPT hat ein Open Source Modell veröffentlicht. Ich würde jetzt mal so in den Raum werfen. Das ist aber bestimmt gar nicht das allerbeste im Moment, was man an Open Source bekommen kann. [00:26:48] Speaker C: Es ist alles so relativ, weil die ja auch alle ihre Vorzüge und Nachteile und sowas haben und und du hast halt, da sind ja tausende von verschiedenen Modellen. Es ist ja nicht nur von den großen Firmen, sondern dann sind auch Leute, die haben sich halt die Modelle runtergezogen und haben die dann gefeintunt. Das ist auch das große Problem bei diesen ganzen, bei das, was die Firmen da rausschmeißen als Open Source, Das ist natürlich, das ist nur das Modell an sich ohne Fine Tuning, ohne alles. Also Feintuning muss man vielleicht noch mal so ein bisschen erklären. Ich erkläre es immer mit das Wissen ist zwar da, aber sozusagen die Sozialisierung von diesem Gehirn, von dem Wissen ist nicht da oder die Spezialisierung ist nicht da. [00:27:28] Speaker A: Der Charakter, wie das Ding dir antwortet, wie dich das Ding anspricht so ein bisschen. [00:27:33] Speaker C: Also da ist nochmal super viel, was da passiert bei diesem Feintuning, was die ganzen großen Firmen, Google und Open Air und so weiter natürlich alles proprietär machen und die sagen nicht, wie sie es machen und die haben das nur in ihren Modellen halt drin. Also von daher ist das auch noch mal ein bisschen eine andere Erfahrung. Sorry, was war jetzt deine Frage? Achso, was ist das beste Modell? Dann sind halt von der Community und von anderen Leuten gefeintunte Modelle, die sind dann mehr auf Coding zum Beispiel Programmieren eben gefeintuned und so Sachen oder auch hast du auch schon von Gemini, da gibt es dann wie Gemma 3 Coding oder wie sie heißen und dann hast du Deepseat dein Modell und ein paar sind halt besser. Da muss man sich da halt mit beschäftigen tatsächlich, okay, welches denn jetzt besser in Bezug auf Schreiben oder in Bezug auf Texte zusammenfassen und so weiter und so weiter. [00:28:26] Speaker A: Wieder so ein bisschen Nerd Arbeit, muss man ja zugeben. Martin, würdest du dir ein chinesisches Modell lokal installieren? [00:28:33] Speaker B: Also lokal ist ja geschützter Raum dann in dem Framework, was Uli benutzt, wo dann klar ist, okay, es kann nicht nach draußen dann schon. Aber ich feiere den Ansatz nicht. Ich würde, glaube ich, eher auf so ein Gemma setzen oder auf so ein Open Source Foundation Model von Meta. [00:28:53] Speaker A: Ja, ich frage deswegen, weil was man immer hört und was meines Wissens auch stimmt, ist, dass die Chinesen eben nicht die massenweise riesengroßen Grafikkarten haben oder Nvidia Karten haben und deswegen von vornherein ein bisschen mehr auf Effizienz gebaut haben und dass deswegen viele von den chinesischen Modellen, was die Leistung angeht, vielleicht für die gleiche Hardware sogar bessere Möglichkeiten geben. Selbst auch so ein Modell wie Chemie K nennt sich das, das auch wirklich schon so eine agentische Idee hat, trotzdem mal komplett umsonst ist und eben auch lokal läuft. Und habe das jetzt auch so ein bisschen provokant gefragt, weil ich glaube, alle, die chinesische Modelle hören, die haben sofort Angst, dass die Chinesen uns jetzt ausspionieren. Aber das ist ja das Schöne und das macht das, glaube ich, noch mal klar, wenn das Modell, selbst wenn es in China produziert wurde, du lädst es dir runter, es läuft bei dir, das geht nicht mehr raus auf irgendwelche chinesischen Server. Das ist ja das Schöne. [00:29:52] Speaker B: Ja, als ich das erste Mal verstanden habe, dass es ein Modell an und für sich, also die Gewichte, die sogenannten, dass es eine ZIP Datei mit Fließkommazahlen ist, eben Milliarden davon, da war ich auch sehr verblüfft. Also das ist mir immer noch ein Rätsel, wie eine endlose Zahlenkolonne irgendwas an Intelligenz bewirken kann. Das ist irre. [00:30:14] Speaker C: Wir sind erst am Anfang von der ganzen Schose. [00:30:16] Speaker A: Ja, ja, das ist ja die andere Sache. Also wenn man sich vorstellt, naja, ich lade mir so ein lokales Modell runter, vielleicht eben GPT OSS, das fühlt sich dann vielleicht an wie vor sechs Monaten oder vor zwölf Monaten das GPT oder irgendwie sowas. Also so, glaube ich, kann man das ganz gut vergleichen. [00:30:35] Speaker B: Das ist ein guter Vergleich. [00:30:39] Speaker C: Diese Open Source Modelle, die sind auch halt schon was älter. Und ich glaube, dass das GPT OSS, also dieses Open Source Modell von Recycling [00:30:48] Speaker A: Ding, die haben einfach das alte Ding rausgeschoben. [00:30:52] Speaker C: Ich glaube, das ist das ER Modell, oder basiert so halbwegs auf dem ER. Also es ist halt wirklich noch eine Generation zurück. Nur was? Also es hängt auch so viel davon ab, wie man promptet und wie man genau die Situation beschreibt, in der man ist. Also das ist ja auch ein himmelweiter Unterschied. Die Leute ist immer schön wieder zu sehen, wenn die Leute so eine Aversion haben und dann zeigen, ich habe das und das gebraucht, habe ich den, das und das gefragt und da hat er total einen Quatsch erzählt. Also wenn du dem nicht beschreibst, wie die Situation ist, in welcher der du gerade steckst und was du jetzt genau gelöst haben willst und sowas. Ja klar, scheiße rein, scheiße raus und so. Also das ist wirklich, hängt so viel davon ab, wie man mit der KI auch umgeht. Das heißt, so eine Generation zurück, da kannst du immer noch 95 Prozent von den Sachen mitmachen, die du heute mit dem anderen Modell machst. Also da sind schon viele Möglichkeiten. Aber Hannes, du hast völlig recht. Also es ist Gefrickel und es muss Interesse und es ist nicht einfach hier Turnkey, ein Klick Lösung und dann läuft alles. [00:31:58] Speaker A: Ich gebe euch zum Schluss noch ein kleines Goodie mit, aber erstmal wollte ich noch einen Punkt ansprechen und das sind, das haben wir ganz am Anfang irgendwie nur ganz kurz angeschnitten, die Kosten. Denn wenn ich ChatGPT benutze, dann zahle ich 20 Dollar im Monat. Wenn ich so wie ich jetzt Gemini alle drei benutze, dann bin ich schon 60 im Monat los. Und wenn ich aber so einen KI Agenten dann irgendwann für mich laufen lassen will, dann kann der schon mal ganz schön viele Token verbrauchen. Und wenn man eben kein, nicht über so ein Abo arbeitet, sondern mit so einer API, also direkt mit dem Modell, dann zahlt man auch für jedes Wort sozusagen einen gewissen Betrag und das kann sich läppern. Dann ist man schon mal irgendwie schnell 10 Millionen, 20 Millionen, 100 Millionen Token irgendwie hin und her geschickt, Was auch daran liegt, dass so ein Kontext natürlich immer größer wird, je mehr man damit arbeitet. Und das habe ich ja in der Folge über openclaw erzählt. Ich war schockiert, dass ich dann am ersten tag irgendwie schon 60 Dollar verbraten hatte, um das Ding nur einzurichten. Und das kann ich ganz schön lösen Und ich kann das Ding rund um die Uhr laufen lassen. Wenn es bei mir lokal läuft, dann kostet es mich nämlich genau nur den Strom. [00:33:12] Speaker C: Absolut, absolut. Und das ist der Riesenvorteil. Du zahlst nichts, du zahlst halt nur den Strom und zum Einrichten zum Beispiel. Und es ist ja auch nahtlos integrierbar. Also wenn du ChatGPT einbinden kannst, dann kannst du auch das lokale Programm über dieses Olama, was ich da erwähnt habe, das ist halt die Brücke zu diesem lokalen Modell, da kannst du das lokale Modell einbinden oder eben auch das Online Modell. Das heißt du kannst halt auch Tasks, klitzekleine Tasks oder so automatisierte Tasks, die super wenig Intelligenz eben nur benötigen, die kannst du halt ganz locker über dein lokales Modell laufen lassen. Und nochmal sorry und was ich noch mal einbringen wollte, ich dachte ein bisschen mehr Zeit, aber die Zeit rennt ja immer, ist wir haben jetzt nur über LLMs gesprochen und nur über sich unterhalten mit dem Ding, aber dasselbe ist ja auch wahr für Grafik und videobasierte Stable Diffusion Angelegenheiten. Da habe ich auch mit rumprobiert. Comfy UI ist da das Stichwort, können wir gerne noch mal einen Podcast drüber machen, aber überleg mal kurz, ich weiß nicht wo deine Fantasie hingeht, aber wenn man halt Bilder generieren kann, wo man weiß das keinem einer über die Schulter guckt und dann aber auch noch mal darauf hinweisen, wie einfach es ist sowas eigentlich zu installieren und was dann aber auch für einen Schindluder damit getrieben werden kann und wirklich gefährliche Sachen halt, du kannst ja dann wirklich alles darstellen. Das ist auch schon mal ein großer Nutzen sich klarzumachen, wie einfach sowas eigentlich ist, dass das jeder machen kann. Jeder kann jedes Bild, jedes Video damit erzeugen. Comfy UI und ein paar Klicks hier und da. Ja man muss sich einlesen und ja es dauert vielleicht ein paar Tage, bis man sich reingelesen hat, aber dann kannst du da alles generieren und das ist schon erschreckend. Das ist auch noch mal ein Punkt, wo es gut ist die Gesellschaft darauf hinzuweisen. [00:35:06] Speaker A: Also weil nämlich gerade so Bild und Videomodelle, die du lokal laufen lässt, auch keine Einschränkungen haben. Also wenn ich jetzt bei Nanobanana eingebe, ich möchte gerne eine hübsche Frau ohne Bikini haben, dann macht er das nicht, aber das lokale Modell würde mir das tun. [00:35:23] Speaker C: Ja könnte sein, dass ich schon mal ausprobiert habe zu Wissenschaft, zu wissenschaftlichen Zwecken. Ja und ja und das ist auch, [00:35:32] Speaker A: also gerade jetzt Video, das ist ja dann mein Thema und auch was, wo ich dann schon mal mit probiert habe, weil wenn du einen ganzen KI Film machen willst, dann brauchst du viele Clips und jeder Clip kostet je nach KI Modell, also jetzt nehme ich mal hier Googles Modell Veo, dann zahle ich schon irgendwie 2, 3 Dollar pro Clip, kann aber sein, dass da nichts geworden ist. Das heißt bis ich irgendwie eine Szene habe, dann bin ich auch schon mal wieder 30 40 Dollar los. Und deswegen ist lokale KI im Videobereich der wahrscheinlich so der teuerste noch im Moment. Ist eigentlich eine gute Idee. Ich bin aber zu dem Ergebnis gekommen, dass gerade bei jetzt Video ich auch wirklich die beste Qualität brauche und da bin ich bei lokalen Modellen noch nicht da, wo ich sage, das sieht genauso gut aus. Da muss ich dann schon hoffen, dass das nächste Modell, was rauskommt, jetzt so langsam dann da ist, dass es an der Spitze wirklich brauchbar ist. [00:36:27] Speaker B: Ich habe dazu auch ein Beispiel. Ich habe durch ein Setup mit einem MCP Server, also der läuft dann lokal und ermächtigt im Prinzip ein KI Modell und dann nehme ich dann eben das beste, teuerste von Von Tropic habe ich gestern mit meinem Sohn zusammen ein Minecraft Plugin hingezaubert und das hätte ich nie machen können. Mit dem lokalen Modell bin ich überzeugt, weil es hat auch fünf Versuche mit dem besten Modell gebraucht. Das ist also je nach Anwendungsfall muss man genau gucken. Aber klar, das ist halt das Spektrum. [00:37:04] Speaker A: Ja genau. Komplexes Programmieren, komplexes agentisches Arbeiten, Videogenerierung, da sind wir alle bei so spezialisierten Anwendungen, aber Textanwendungen, genau das, was Uli beschrieben hat, Arbeit mit den eigenen Daten, Datensicherheit, das sind die großen Vorteile von lokalen Modellen. Habt ihr noch einen Punkt, den wir unbedingt besprechen sollen, Sonst haue ich das kleine Goodie raus, was ich gefunden habe, was vielleicht auch für den Uli oder den Martin was ist, was ihr ausprobiert und wo wir dann beim nächsten Mal drüber reden können. Das Ganze heißt Locally AI und es ist tatsächlich eine iOS App. Also man kann sich auf seinem iPhone diese App installieren und genau wie du das beschrieben hast, die App dient als Container, lädt sich dann auch die diversen lokalen KI Modelle runter und das Ding ist so optimiert, dass es auf dem modernen iPhone Chips, also Apple Silicon läuft. Da geht es dann auch darum, Wenn du ein iPhone 17 Pro hast, dann kannst du dir ein etwas größeres Modell darauf packen. Ich mit meinem iPhone 12 werde es wahrscheinlich nicht mehr ausprobieren, aber es ist genau dafür gemacht, wenn ich im Flugzeug sitze und ich muss in den Flugmodus gehen, dann habe ich ein lokales Modell und kann damit chatten und kann auch auf meinem Handy meine Daten lösen. Und das klingt zumindest von der Installation, ich habe es noch nicht probiert, die halt eine App installieren. [00:38:26] Speaker C: Ja, das würde mich sehr interessieren, was da dann die Qualität ist. Für Android gibt es das nicht, schätze ich. [00:38:33] Speaker A: Ich glaube das jetzt noch nicht, aber ich glaube, dass das tatsächlich ein Blick in so eine Zukunft ist, wo du natürlich irgendwie State of the Art Modelle für komplexe Arbeiten hast, aber so ein kleines lokales Modell, was auch vielleicht einfach kleinste Aufgaben auf deinem Handy ausführt, da wird Google auch schon dran arbeiten. Und ich glaube sogar, dass es erste lokale KI Funktionen auf den neuesten Pixel Handys auch schon gibt, was jetzt nicht vergleichbar ist mit dem ChatGPT, aber eben eine KI, ein kleiner lokaler, wie sagt man, KI Chip mit drin verbaut ist in den Handys. [00:39:07] Speaker B: Ja, da geht's. [00:39:08] Speaker C: Meiner Meinung nach muss das auch genauso sein in der Zukunft. Da gibt es die lokale KI, die kennt dich wirklich und die weiß aber auch, was sie rausgeben darf und was sie nicht rausgeben darf. Wenn der Christian hier wäre, ich glaube, der hat noch ein paar Sachen zu sagen, aber der ist ja nicht hier die lokale KI, die wirklich meine persönlichen Daten und alles mich kennt, der ich volles voll vertrauen kann, mit der kann ich mich offen unterhalten und dann für die großen Aufgaben muss ich dann rausgehen und die Online Geschichten benutzen. Also zumindest ist das in meiner Fantasie Zukunft so, weil das würde die Privatsphäre, das Gute mit dem nützlichen Verein sozusagen [00:39:50] Speaker A: ja schön fast schon ein schönes Schlusswort. Ich nehme das so und würde sagen, dann hören wir uns nächste Woche wieder, wenn vielleicht Christian wieder da ist und uns allen irgendwie die Ohren langzieht, was [00:40:03] Speaker C: wir hier schmu erzählt haben. [00:40:06] Speaker A: Insofern sage ich danke an euch beide und es bleibt eigentlich nur noch der Aufruf an alle, die das jetzt gehört haben, mitzudiskutieren, weil wir hier auch gerne mit euch diskutieren. Wenn ihr eine E Mail schreibt mit Fragen, mit Anregungen, dann nehmen wir das gerne mit auf PodcastMKI. Und ansonsten sehen wir uns entweder bei dem nächsten GMKI Event, da könnt ihr euch auf der Webseite informieren oder nächste Woche hier im Podcast. Ich sag bis dahin. [00:40:33] Speaker C: Ja, bis dahin. Danke Hannes und nochmal Olama com. [00:40:40] Speaker B: Tschüss, Danke euch. Ciao.

Show Notes

Chapters

Episode Transcript

Other Episodes

Episode 19

Rückblick auf 2025 und Ausblick 2026

Episode 6

Verliert Europa den Anschluss im globalen KI-Rennen?

Episode 8

KI im Klassenzimmer