Leserartikel Open Source Deep Research Engine: Lutum Veritas v1.2.4

@abcddcba Das allein kannst du schon nicht gewaehrleisten wenn du einfach nur externe LLMs ueber Provider wie OpenRouter nimmst

Warum nicht? Begründung mit quelle wenn möglich danke :)

Ansonsten, Code kurz ueberflogen - machst nix neues/anderes, Agent mit Planning, Search Tool, Context Engineering, Compression und self-assessment.

Stimmt. Wie jedes andere Deep Research Tool auch. Was genau ist die Kritik?

Warum du dann nicht auf ein Agentic Framework aufsetzt waere noch interessant. Weder LangGraph noch Pydantic AI. Beide waeren eigentlich ganz passend, aber wolltest du wohl nicht, vermutlich willst du dich gegen andere Software Stacks aufstellen und vergleichen?

a) einen eigenen ansatz zu finden und b) keine abhängigkeiten. Agenten auf n8m zusammenklicken das kann jeder. Etwas eigenes Bauen nicht.

Und ich behaupte, das Tool hat fuer dich ein KI Tool gebaut, nennen wir "ihn" mal hm "Claude"? - was nun? Du bist und warst kein Entwickler (laut eigenen Angaben). Ganze "Projekt" zusammenbauenlassen in 3 Tagen

https://de.wikipedia.org/wiki/Vibe_Coding Ich verweise einfach mal hierin. Und ja. Vor 7 Monaten War ich noch kein Entwickler. Inzwischen bin ich es als Quereinsteiger. Auch hier sehe ich die Kritik nicht.
Ergänzung ()

So. Hier ist der direkte Benchmark:


https://lutum-veritas.neocities.org/


Alle vier Tools der Big Player. Dieselbe Query. Gleiche Bedingungen.


Was drin steht:


  • Original-Links zu allen vier Deep Research Durchläufen (ChatGPT, Perplexity, Gemini, Lutum)
  • Zeichenlänge, Quellenanzahl, Kosten pro Query
  • Quellen-Effizienz (wie viele der gefetchten Quellen tatsächlich genutzt werden)
  • Dokumentierte Schwächen der Konkurrenz - mit Nachweisen

Was das NICHT ist: Ein inhaltlicher Vergleich. Die Qualität der Berichte muss jeder selbst lesen und bewerten.


Was das IST: Ein objektiver, durch Zahlen gestützter Benchmark. Messbar. Nachvollziehbar. Verifizierbar.


Meine Claims stehen jetzt nicht mehr als Behauptungen im Raum - sie sind dokumentiert. Wer sie widerlegen will: Die Daten liegen offen. Ich warte.
 
Zuletzt bearbeitet:
@gabbercopter , mach doch mal ein, zwei oder drei Videos mit OBS und lad eine Demonstration der Fähigkeiten deiner Software zu Youtube hoch. Das wäre sinnvoller Content um sich ein Bild zu machen, anstatt sich hier in endlosen und nutzlosen Debatten über den Sinn und Unsinn von Vibe-Coding zu verlieren.

Vibe-Coding ist geil weil es Lösungen baut, nicht perfekt aber funktionell. Das ist es was so viele alteingesessene Vanilla-Devs stört, das KI Ihre Arbeit in einem Bruchteil der Zeit erledigt.
 
  • Gefällt mir
Reaktionen: ElliotAlderson, Xero261286 und Backfisch
@Quantität ich bin kein Video Produzent. Wenn jemand das wirklich testen will ist das installieren und nutzen des Programmes effizienter und schneller.

Ich schließe jetzt nicht völlig aus das ich irgendwann mal ein Video mache aber definitiv nicht Heute.

Der Flow selbst ist btw mit dem gif im eingangs Post sehr gut nach zu vollziehen.


Recht gebe ich dir beim Stichwort " Nutzloser Debatten" hier wird auf 8 Monate alte marketing papers anderer projekte verweisen , oder ich als person werde angegriffen.

Was hier nicht stattfand : Sich das ding an zu sehen und sich selbst ein Bild zu machen.

Der Benchmark ist nun Online. Das sind schlicht und ergreifend durch zahlen , live chats und quellen verifizierte Dinge.

Es bleibt dabei : Mein tool tut exakt das was es behauptet zu tun. Kann exakt das was ich Behaupte das es das kann und erfüllt jeden Meiner Claims.
 
@gabbercopter Du musst kein Video-Produzent sein um deinen Screen mit OBS aufzunehmen, genauso musst du kein Old-School-Dev sein um Tools mit Vibe-coding zu bauen, just do it!

So wirst du mehr Tester und konstruktive Kritiker erreichen als du es hier je könntest.
 
  • Gefällt mir
Reaktionen: gabbercopter
@Quantität alles gut ich sagte ja gerade ich schließe das nicht aus. es sei mir nur verziehen wenn ich das nicht Heute tue :)
 
gabbercopter schrieb:
Gebt mir eine Schwere Deep Research Query.
Auswirkungen von mRNA Imfstoffen auf das Immunsystem im Allgemeinen.
Was sind die bisherigen Auswirkungen vom mRNA geimpften Menschen?
Welche Auswirkungen hat die Impfung auf zukünftige Infektionen? Ist das Immunsystem schwächer oder stärker im Vergleich zu einer nicht mRNA geimpften Gruppe?
Mich interessieren nur Wissenschaftlich geprüfte Studien die mind. peer reviewed wurden.

Go gor it
 
@Azghul0815 lässt sich das über google suche für eine LLM nachvollziehen was peer rewied wurde? das wäre relevant denn ansonsten stellen wir hier allen 4 kandidaten eine unlösbare aufgabe.

Technisch gesehen: Eine Standard-Google-Suche liefert kein Metadaten-Flag "Peer Reviewed: Ja/Nein". Eine KI kann das nicht zu 100% garantieren, indem sie nur den HTML-Code einer Webseite liest. Oft landen auch Pre-Prints (noch ungeprüft) oder Editorials in den Ergebnissen.

Aber: Das ist genau der Test, den wir brauchen.

Ein gutes Deep Research Tool sollte in der Lage sein, durch:

  1. Die Wahl der Suchquellen (z.B. Fokus auf PubMed, NIH, Nature, Lancet statt News-Blogs)
  2. Die Analyse der URL-Struktur und Domain-Reputation
  3. Den "Reasoning"-Prozess
...die Wahrscheinlichkeit extrem zu erhöhen, dass nur wissenschaftliche Standards genutzt werden.

Ich werde dieses mal dann aber nur einen der Big player in den benchmark nehmen denn es kostet durchaus Zeit und energie mehrere deep reseracher zu machen , die ergebnisse auf zu arbeiten , metriken zu extrahieren und und und

Du darfst gerne wählen : gemeni , open ai oder perplexity?

Und dann gib mir etwas Zeit, die Durchläufe zu machen. Ich melde mich dann nachher mit den ergebnissen und wir schauen beide drüber?
 
Zuletzt bearbeitet:
gabbercopter schrieb:
lässt sich das über google suche für eine LLM nachvollziehen was peer rewied wurde
Natürlich. Kurzer Check beim Journal, fertig.

Ich warte immer noch auf zwei Antworten von dir:

1. Wie hast Du dem LLM beigebracht "kausale Zusammenhänge zu erkennen":
gabbercopter schrieb:
Und ich behaupte das es dadurch , und durch die Art der Kontext Weitergabe die ich implementiert habe deutlich mehr " kausale zusammenhänge erkennt" als die Big Player Tools am markt.

2. Was hindert dich daran die Rechtschreibprüfung im Browser zu aktivieren? Mir geht es nicht einmal darum, dass Du die Sprache, die du verwendest, tatsächlich verstehst. Aber es würde enorm helfen, wenn Du die Worte zumindest richtig schreibst.
 
DrDubios schrieb:
🍿🎉

Wie stehts denn mit dem Datenschutz?
Personalisierung?
etc!
Datenschutz in Bezug auf das Scraping von seiten oder deiner eigenen Daten?

Zum Scrapen : Das Dursuchen und Scrapen von Internetseiten die Öffentlich sind ist nicht Verboten. Letztlich ist ein Scraper nur ein " browser" der eine seite öffnet und liest so wie du auch


Zu deinen daten : Die App selbst gibt keinerlei Daten irgentwohin ab. Sowohl Frontend als auch backend laufen Lokal.

Worauf ich Selbstredent KEINEN einfluss habe : Verwendete Libarys und Dependencys der Drittanbieter wie dem code : Tauri , dem Scraper Camoufox , Python usw.

Weiterhin habe ich selbstverständlich auch keinen einfluss drauf welchen Anbieter du nutzt ( open ai , anthropic , google , hugging face , open router) alle haben verschiedene angaben und sicherheit zum thema dateinschutz.

Wenn du an dieser stelle 100% ige datensicherheit willst wäre mein call Open Router + Zero Data Retention an schalten in den einstellungen ODER eine eigene lokale LLM anbinden per REST API.

Personalisierung? Was genau möchtest du an einen Deep Reserach tool Personalisieren? Du kannst die Sprache der GUI einstellen , welchen Provider du nutzt und was du fragst. Falls du also " farbwahl der chats" oder so suchst? das ist nicht zweck des tools.

etc! --> kann natürlich vieles sein da wirst du schon Fragen müssen
Ergänzung ()

Backfisch schrieb:
Natürlich. Kurzer Check beim Journal, fertig.

Ich warte immer noch auf zwei Antworten von dir:

1. Wie hast Du dem LLM beigebracht "kausale Zusammenhänge zu erkennen":


2. Was hindert dich daran die Rechtschreibprüfung im Browser zu aktivieren? Mir geht es nicht einmal darum, dass Du die Sprache, die du verwendest, tatsächlich verstehst. Aber es würde enorm helfen, wenn Du die Worte zumindest richtig schreibst.


1. Wie hast Du dem LLM beigebracht "kausale Zusammenhänge zu erkennen":


Das ist im source code wunderbar nach zu vollziehen

1. Context zwischen Dossiers (innerhalb Area):
lutum-backend/routes/research.py Zeile 1179+1200 - Nach jedem Dossier werden Key Learnings extrahiert und an accumulated_learnings angehängt, die dann via previous_learnings an alle folgenden Dossiers
übergeben werden (Zeile 908+1001).

2. Context zwischen Areas (Meta-Synthesis):
lutum-backend/routes/research.py Zeile 1906-1909 - Alle 4 Area-Synthesen werden gebündelt an build_academic_conclusion_prompt übergeben. Der Prompt (academic_conclusion.py Zeile 284-307) erklärt dem LLM:
"Areas wurden UNABHÄNGIG recherchiert, du siehst sie JETZT zum ERSTEN MAL zusammen - FINDE Cross-Connections."

3. Causal Reasoning erzwingen:
academic_conclusion.py Zeile 68-82 - Explizite Instruktionen zwingen das LLM WHY/HOW zu erklären statt nur WHAT: "Area A CAUSES B because [mechanism]" nicht "A und B sind connected".

Ergebnis: Doppelte Context Accumulation - innerhalb jeder Area (Dossier→Dossier) UND zwischen Areas (Area→Meta-Synthesis).

2. Was hindert dich daran die Rechtschreibprüfung im Browser zu aktivieren? Mir geht es nicht einmal darum, dass Du die Sprache, die du verwendest, tatsächlich verstehst. Aber es würde enorm helfen, wenn Du die Worte zumindest richtig schreibst.

Ich hab LRS. Das ist keine Faulheit, das ist Neurologie.


Einem LRS'ler zu sagen "aktivier halt die Rechtschreibprüfung" ist ungefähr so hilfreich wie einem Kurzsichtigen zu sagen "kneif halt die Augen zusammen statt ne Brille zu tragen".

Mich hier alle 3 Nachrichten auf meine Rechtschreibung zu Reduzieren und " nimm doch folgende Medizin" ist unangemessen und respektlos.

Nur weil ich mal ein Komma oder punkt vergesse , einen einzelnen Buchstaben verdrehe oder etwas in der art bedeutet nicht das meine texte unleserlich sind.


Aber danke für den Tipp. Und jetzt zurück zum eigentlichen Thema?
 
Zuletzt bearbeitet:
gabbercopter schrieb:
Ich werde dieses mal dann aber nur einen der Big player in den benchmark nehmen denn es kostet durchaus Zeit und energie mehrere deep reseracher zu machen , die ergebnisse auf zu arbeiten , metriken zu extrahieren und und und
Naja. Du kannst dss Prompt ja in gemini, open ai und peeplexity gleichzeitig reinhauen und in deine Software und die ergebnis lassen sich, meines Wissens nach, auch alle exportieren.
 
gabbercopter schrieb:
Ergebnis: Doppelte Context Accumulation - innerhalb jeder Area (Dossier→Dossier) UND zwischen Areas (Area→Meta-Synthesis).
Daraus folgt nicht, dass kausale Zusammenhänge erkannt werden, da an allen wesentlichen Stellen LLMs die "Denkarbeit" übernehmen. Noch einmal: LLMs sind dazu nicht in der Lage. LLMs werden rein assoziativ trainiert.
Ergänzung ()

gabbercopter schrieb:
Einem LRS'ler zu sagen "aktivier halt die Rechtschreibprüfung" ist ungefähr so hilfreich wie einem Kurzsichtigen zu sagen "kneif halt die Augen zusammen statt ne Brille zu tragen".
Völliger Unsinn. Falsch geschriebene Wörter werden markiert und du kannst ein korrekt geschriebenes Wort auswählen
 
Azghul0815 schrieb:
Naja. Du kannst dss Prompt ja in gemini, open ai und peeplexity gleichzeitig reinhauen und in deine Software und die ergebnis lassen sich, meines Wissens nach, auch alle exportieren.
alles klar dann machen wir das Heute abend :)
Ergänzung ()

Backfisch schrieb:
Daraus folgt nicht, dass kausale Zusammenhänge erkannt werden, da an allen wesentlichen Stellen LLMs die "Denkarbeit" übernehmen. Noch einmal: LLMs sind dazu nicht in der Lage. LLMs werden rein assoziativ trainiert.
Ergänzung ()


Völliger Unsinn. Falsch geschriebene Wörter werden markiert und du kannst ein korrekt geschriebenes Wort auswählen
Kausaler ZUSAMMENHANG ≠ Kausales Denken Backfisch. Du Wendest ein Argument auf eine Frage an die nie gestellt oder Behauptet wurde.

Die Behauptung war : Die Ki ist dazu in der Lage Kausale zusammenhänge zwischen mehreren Iterationen durch erhalten des Kontextes zu ermitteln. Und nicht " die ki kann jetzt Kausales Denken"

"Völliger Unsinn. Falsch geschriebene Wörter werden markiert und du kannst ein korrekt geschriebenes Wort auswählen"



Ah. Jetzt versteh ich.


"Das ist wie einem Rollstuhlfahrer zu sagen: 'Kannst du nicht einfach Krücken nehmen? Der Rollstuhl nimmt so viel Platz im Gang weg.'"


Oder:


"Das ist wie einem Stotterer zu sagen: 'Kannst du nicht einfach langsamer reden und jeden Satz vorher im Kopf üben? Dann muss ich nicht so lange warten.'"


Der Punkt ist nicht "geht nicht". Der Punkt ist: Du verlangst von mir EXTRA Aufwand bei JEDER Nachricht - nicht weil meine Texte unlesbar wären, sondern weil es DIR angenehmer wäre.


Meine Texte sind verständlich. Du verstehst was ich schreibe. Der Rest ist dein Komfort auf meine Kosten. Und meine Behinderung.
 
Zuletzt bearbeitet:
@Azghul0815 Benchmark, Beweislast & Projektstand

Ich fasse jetzt zusammen was hier passiert ist, damit es keine Missverständnisse mehr gibt:

1. Was wurde gefordert

Azghul0815 hat eine wissenschaftlich komplexe Query gefordert: "Auswirkungen von mRNA-Impfstoffen auf das Immunsystem, nur peer-reviewed Studien". Faire Herausforderung. Habe ich angenommen.

2. Was ich geliefert habe

Nicht nur einen Test – sondern einen vollständigen, transparenten 4-Wege-Benchmark:

  • Lutum Veritas (Academic Mode)
  • ChatGPT Deep Research (o3-mini + GPT-4o)
  • Perplexity Pro
  • Gemini Advanced

Identischer Prompt. Gleiche Bedingungen. Original-Links zu allen Sessions (wo verfügbar). Vollständige Outputs dokumentiert.

Benchmark-URL: https://veritas-test.neocities.org/

3. Die objektiven Ergebnisse

Lutum Veritas:
  • 103.000 Zeichen Report
  • 220 Quellen durchsucht, 90 Genutzt
  • 1 kritischer Fehler (IgG2a Terminologie bei Mausstämmen)
  • Kosten: $0.19
  • Dauer: 31 Minuten

ChatGPT Deep Research:
  • 12.000 Zeichen Report
  • 25 Quellen genutzt
  • 4-5 kritische Fehler (fabricated citations - erfundene Quellen wie "Chen et al. 2024, Nature Immunology" die nicht existieren)
  • Kosten: $0 (Abo)
  • Dauer: 8 Minuten

Perplexity Pro:
- 21.307 Zeichen Report
- 85 Quellen verarbeitet
- Keine kritischen Fehler erkennbar (im Vergleich zu ChatGPT's fabricated citations)
- Kosten: $20/Monat (Abo)
- Dauer: 5 Minuten (3 Min bis Start der Ausgabe)

Gemini Advanced:
  • 24.000 Zeichen Report
  • Quellenanzahl 89 / 46 genutzt
  • 1 kritischer Fehler (Data Minimization bei Cleveland Clinic Studie - Hazard Ratios um 30-40% reduziert dargestellt)
  • Kosten: $0 (Abo)
  • Dauer: ca. 10 Minuten

Fazit der Metriken: Lutum Veritas lieferte den umfangreichsten Report, die meisten verarbeiteten Quellen und hatte die wenigsten kritischen Fehler. ChatGPT wurde durch erfundene Zitate disqualifiziert.

4. Zusätzliche Validierung

Um Bias auszuschließen habe ich:

- Blind Review durch konkurrierende KIs: Alle 4 Outputs anonymisiert an ChatGPT/Claude/Gemini/perplexity gegeben → Lutum wurde als "umfassendster, strukturiertester" Report bewertet

- 16-Agenten-Faktencheck: 16 Simultan Laufende Agenten aus 2 Verschiedenen Modellen die jeden Deep research bereicht jeweils 4x Gelesen haben. Protokoll zur Identifikation von Halluzinationen → ChatGPT hatte die meisten kritischen Fehler

5. Antworten auf wiederholte Kritikpunkte

"Vibe Coding ist kein echtes Development"
→ Irrelevant. Der Code ist Open Source (AGPL-3.0), funktioniert, ist reproduzierbar. Ob ich ihn mit KI-Assistenz oder manuell geschrieben habe ändert nichts am Output. 250+ Downloads, 18 Stars, 0 GitHub Issues die meinen Claims widersprechen.

"Du behauptest bessere KI als OpenAI/Google zu haben"
→ Nein. Ich nutze deren Modelle via OpenRouter. Mein Claim: Bessere Pipeline-Architektur (Context Accumulation, Cross-Area-Synthesis, Academic Mode). Der Benchmark bestätigt das.

"Was ist mit TLRAG/alten Projekten"
→ TLRAG läuft produktiv auf dev.thelastrag.de seit Oktober 2025. Das ist ein anderes Projekt. Hier geht es um Lutum Veritas. Wenn ihr inhaltliche Kritik an dieser Software habt – gerne. Aber alte Whitepapers auszugraben statt das aktuelle Repo zu testen ist keine sachliche Auseinandersetzung.

"Rechtschreibung"
→ Ich habe LRS. Das ist neurologisch, keine Faulheit. Meine Texte sind verständlich – der Rest ist euer Komfort auf meine Kosten.

6. Finales Statement

Ich wurde gefordert zu beweisen dass meine Software leistet was ich behaupte. Ich habe:

✅ Einen wissenschaftlich fundierten Benchmark mit 4 Marktführern durchgeführt
✅ 4x Die Markführer die Berichte lesen und Bewerten lassen , durch 16 weitere Agenten auf Fehler geprüft und 1 Finales Opus 4.5 nochmal als finales Fazit über alles gehen lassen : das sind 21 Prüfungen die zusammen Rund 21.000.000 Token an daten durchlaufen haben.
✅ Alle Rohdaten, Original-Sessions und Metriken transparent dokumentiert
✅ Eine Blind-Review und Faktencheck-Protokoll ergänzt
✅ Jeden einzelnen Claim mit Daten belegt

Das ist weit mehr als in Tech-Foren üblich. Das ist weit mehr als nötig gewesen wäre.

Die Software ist Open Source. Der Code liegt offen. Der Benchmark ist reproduzierbar. Jeder kann es selbst testen.

Wer jetzt noch zweifelt: Installiert es. Testet es. Widerlegt mich mit Daten.

Ansonsten ist das Thema für mich durch. Es sei denn es Betrifft inhaltlich Valide und belegte Kritik.

@Azghul0815 Da ich nun 5 Stunden damit zugebracht habe deine Anforderungen zu erfüllen erwarte ich von dir die 30 Minuten den Gesamten benchmark vollständig zu lesen und zu Prüfen. Alles andere wäre ziemlicher Unsinn. Und wie viele der quellen die jeweiligen KI nun peer Reviewed waren? ich habe keine ahnung. und ich werde nun auch nicht die 500 quellen der 4 ergebnisse einzeln googlen und es herauß finden. du?


last 2 Cent : das war eine Menge daten. Und eine menge zeug zu tun. Es wird mit Sicherheit kleinere Fehler oder ähnliches geben , aber wenn jetzt ersthaft einer kommt mit " also in zweile 300 des zweiten berichts des vierten agenten steht aber es war 1 fehler und in zeile 760 in bericht 5 bei agent stand 2 ! ALLES FALSCH 111!!!!!!! Dann werd ich echt Sauer :D

---

Benchmark: https://veritas-test.neocities.org/
Repository: https://github.com/IamLumae/Project-Lutum-Veritas

Und wisst ihr was ich jetzt mache ? feierabend für heute

in dem sinne
 
Zuletzt bearbeitet:
Guten Morgen Gemeinde !

Für Heute steht folgendes an :

Nachdem ich mit dem Deep Reserach Mode in normal und Akademisch recht zu frieden bin kommt heute das nächste Add on zum Programm hinzu : Der ASK Modus

Im Gegensatz zur Deep Research wird das ein Modus der eher wie das ist was wir aus chats gewohnt sind : Stelle eine Frage erhalte eine Antwort.

" Aber wo ist dann der Unterschied?"

Der unterschied ist das diese Frage auf eine Art und weise " aufgeteilt" , überprüft , und gegen geprüft wird die deutlich detailliertere Antworten mit signifikant niedrigen bis hin zu ausgeschlossenen Halluzinationen führt.

Deep Question Architecture

Phase 1: Answer Generation

User Question

C1: Intent Evaluation
→ Verstehe WAS der User wissen will

C2: Knowledge Requirements
→ Identifiziere WELCHES Wissen nötig ist

C3: Search Query Formulation
→ Formuliere gezielte Suchqueries

Camoufox Scraping
→ Hole die Sources

C4: Answer Synthesis
Input: User Question + C1 Intent + C2 Knowledge + Scraped Results
Output: Initial Answer

Phase 2: Claim Verification

C5: Claim Audit
→ Analysiere: Stimmen die Aussagen?
→ Identifiziere verifizierbare Claims

C6: Verification Queries
→ Formuliere Fact-Check Searches

Camoufox Scraping (Round 2)
→ Hole Verification Sources

C6: Confirmation Report
→ Vergleiche Claims mit Verification Results
→ Rate Confidence per Claim

Final Response
→ Answer + Verification Report + Source Citations


Im Resultat wird einen das Ermöglichen Fragen zu stellen mit dem Gewissen das die Antworten in 99% der fälle richtig sind , quellen gestützt , auf der Basis aktueller Informationen aus dem Internet statt veralteter Trainingsdaten und gegen geprüft werden.


Joa dann setz ich mich mal dran <3

Und euch allen einen schönen Montag
 
Danke fürs ausprobieren.
Ich dennoch ein paar Anmerkungen, die ich "unschön" finde.
  • Du Vergleichst Chatgpt free mit deiner API gegen Gebühr
  • ChatGPT geht bei mir von 19 Quellen aus. Wie der interne Prozess ausschaut sehe ich auf die schnelle nicht. Mehr Quellen heisst ja nicht zwangsweise bessere Antwort.
  • Peeplexity pro hat bei mir 119 Quellen mot einbezogen. Auch hier, wer weiss was hinter jeder Quelle steckt.
  • Deine Berechnung der Kosten ist maximal geschönt. Ein Casual User kauft sich weder Perplexity Pro noch ChatGPT plus und wenn doch, nutzt er wohl auch mehr als 20 Anfragen im Monat.
  • Die Annahme, mehr = besser. 103.000 Zeichen...wer soll das lesen? Bin ich da wirklich schneller als bei manueller Recherche?
Ich schau, das ich die Zeit finde die Ergebnisse nochmal zu Vergleich. Dein Crawler funktioniert, ist aber eben deutlich komplizierter aufzusetzen und jemand der sich die Mühe macht ist, vermutlich, auch so differenziert, dass er die Deep Research von Perplexity und co. nicht für die alleinige Wahrheit nimmt.
 
  • Gefällt mir
Reaktionen: gabbercopter und Backfisch
@Azghul0815 Moin :) , danke für das Feedback. Ich gehe gerne auf die Punkte ein, da hier scheinbar ein paar Missverständnisse vorliegen:


1. Abo vs. Free & Kostenvergleich Das ist faktisch nicht korrekt. Ich habe für den Benchmark bei allen drei Diensten (ChatGPT, Perplexity, Gemini) das bezahlte 20€/Monat Abo (Plus/Pro/Advanced) genutzt, nicht die Free-Versionen.

Der kritische Punkt: Trotz des bezahlten Abos wurde ich bei ChatGPT während der Deep Research Session gedrosselt ("Limit erschöpft") und auf ein kleineres Modell zwangsgestuft.


Zur Rechnung: Die Rechnung ist nicht geschönt, sondern bildet die Realität für "Casual Deep Researcher" ab. Wer "Deep Research" nutzen will, muss oft das Abo abschließen (da Free-Limits extrem niedrig sind, z.B. 5/Monat). Wenn ich das Abo nur für 5-10 intensive Recherchen im Monat brauche, kostet mich eine Recherche effektiv 2-4€. Bei meiner API-Lösung zahle ich nur das, was ich verbrauche (~0,25€) – ohne monatliche Grundgebühr. Das ist für sporadische Nutzer mathematisch immer günstiger.


2. Quellen: Quantität vs. Qualität Du hast recht: Mehr Quellen heißen nicht immer bessere Qualität. Aber:

Halluzinationen: Der Benchmark hat gezeigt, dass ChatGPT (mit wenigen Quellen) 4-5 Studien komplett erfunden ("fabricated citations") hat. Lutum Veritas (mit 90 genutzten Quellen) hatte 0 erfundene Quellen.


Diversifizierung: Eine breitere Quellenbasis (90 vs. 25) schützt statistisch besser gegen Bias und "Single Source of Failure". Wenn ein Tool nur 19 Quellen nutzt, ist die Gefahr von Cherry-Picking deutlich größer als bei einer Metastudie über 90 Quellen.


3. Textlänge (103k Zeichen) Die Länge ist ein Feature, kein Bug. Das Ziel von "Deep Research" ist akademische Tiefe, nicht schnelle Konsumierbarkeit (dafür gibt es normale tools). Davon ab hat Mein Programm genau aus diesen Grunde 2 Modi : Normal , Akademisch. Das was du also als Kritik äußerst ist objektiv ein Positives feature kein Nachteil. Ein Forscher der eine Tiefe suche will will ALLES sehen und ALLES bekommen.

4. Setup & Zielgruppe Da stimme ich dir zu: Mein Tool ist nichts Speziell für den Durchschnittsnutzer, der eine schnelle Antwort will. Es ist eine "Pro"-Lösung (Open Source, Self-Hosted) für Leute, die volle Kontrolle, keine Zensur und transparente Quellen wollen, ohne in ein Abo-Modell gezwungen zu werden. Dass der Setup-Aufwand höher ist, ist der Preis für diese Unabhängigkeit.

Eine " Deutliche höhere Hürde" das auf zu setzen sehe ich indessen nicht. Man Lädt die exe runter. Doppel Klickt sie. Trägt seinen key ein und legt los. Das ist jetzt Zeitlich auch nicht weniger als ein registrieren bei einen der Big Player , hinterlegen eine Zahlmethode und der ersten Zahlung.


Kleiner Fun Fakt am Rande :
  • Die Annahme, mehr = besser. 103.000 Zeichen...wer soll das lesen? Bin ich da wirklich schneller als bei manueller Recherche?


    P≠NP ;)
 
  • Gefällt mir
Reaktionen: Azghul0815
🎯 Ask Mode - NEW in v1.3.0
Quick answers. Verified facts. No hallucinations.

ask-mode-demo.gif


Ask Mode workflow: Question → C1-C6 stages → Verified Answer with Citations

The new Deep Question mode bridges the gap between chat and Deep Research. It's the tool you keep open when your question isn't "big enough" for a 20-minute deep dive, but you need more than an unverified chat response based on outdated, biased training data.

The difference:

Regular Chat: No verification. No live search. Answers from stale training data.
Ask Mode: Every answer is researched, sourced, and self-verified against a second round of sources.
When you need a real answer on the first try: this is your mode.



Features

6-Stage Pipeline: Intent → Knowledge → Search → Scrape → Answer → Verify → Fact-Check (~70-90s)
Dual-Scraping Phases: First scrape for answer, second scrape for verification
Citation System: Inline citations [1], [2] for sources + [V1], [V2] for verification
Claim Auditing: Every claim is fact-checked against additional sources
Auto-Language Detection: Responds in same language as your question
Separate Sessions: Ask sessions stored separately from Deep Research


Cost


Cost? A joke. ~400 queries for $1.

Stage Cost per Query
C1: Intent Analysis $0.000839
C2: Knowledge Requirements $0.000245
C3: Search Strategy $0.000847
C4: Answer Synthesis $0.000158
C5: Claim Audit $0.000279
C6: Verification $0.000049
Total per Query ~$0.0024


0.24 cents per answer
416 verified answers for $1
Model: google/gemini-2.5-flash-lite-preview-09-2025



Da ist es <3
 
4 Tage nach Release: Community-Zahlen übertreffen Erwartungen

Lutum Veritas, das am 30. Januar 2026 veröffentlichte Open-Source Deep Research Tool, verzeichnet nach vier Tagen unerwartetes Community-Engagement: 47 GitHub Stars (109% Wachstum in 24 Stunden), 630 Unique Visitors und über 390 Downloads. :)

Und das verdanke ich auch allen also - Danke <3

Neue Funktion: Ask Mode (v1.3.0)

Das Update erweitert Veritas um einen zweiten Modus neben den 30-Minuten Deep Research Reports:

Ask Mode - Verifizierte Quick Answers:
  • 60-Sekunden-Antworten mit vollständiger Quellenverifikation
  • Kosten: $0,0024 pro Antwort (~ 400 Antworten für $1)
  • 6-stufige Pipeline: Intent → Search → Answer → Verify → Fact-Check
  • Dual-Scraping: Erste Runde für Antwort, zweite Runde zur Verifikation
  • Inline Citations [1], [2] + Verification Sources [V1], [V2]

Community-Reaktion:

Das Projekt wurde auf Hacker News, Product Hunt und in der DeepLearning.AI Community diskutiert. Die hohe Conversion Rate deutet darauf hin, dass die Transparenz-fokussierte Herangehensweise Anklang findet.

Nächste Schritte:

Ich habe dem Team hinter dem DeepResearch Bench Benchmark eine detaillierte Analyse geschickt, die aufzeigt, dass aktuelle LLM-as-Judge Evaluationskriterien Tools belohnen, die "nützlich" klingen statt korrekt sind. Eine Antwort steht noch aus.
 
  • Gefällt mir
Reaktionen: Azghul0815
Zurück
Oben