Leserartikel Open Source Deep Research Engine: Lutum Veritas v1.2.4

@usernamehere Derzeit Supporte ich : Open ai , Gemeni , Antropic , Huggingface und Open Router da sollte ja eigentlich für jeden was dabei sein aber solltest du vorschläge für weitere aggregatoren haben sage gerne bescheid.
 
Kurzes Update: Ich habe den offiziellen Google DeepMind Simple QaA Benchmark gemacht :)


SimpleQA Verified von Google DeepMind, 47 Modelle auf der Kaggle-Leaderboard, N=100 Zufallsstichprobe.

Ergebnis:
- 89,1% F-Score (Platz 1, nächster ist Gemini 3 Pro mit 72,1%)
- 0 erfundene Antworten
- 6 Fehler (echte Quellen, falsch interpretiert)
- 9 ehrliche Ablehnungen


Akademisches Paper das ich die letzte Woche Erarbeitet habe dazu (26 Seiten, 34 Quellen): [PDF-Link]
Alle 100 Ergebnisse mit Rohdaten: https://dev.thelastrag.de/veritas_benchmark
Code ist nach wie vor offen: https://github.com/IamLumae/Project-Lutum-Veritas

Bin mir bei der Methodik nicht 100% sicher ob alles sauber ist - Pipeline vs. Einzelmodell ist natürlich nicht 1:1 vergleichbar, und N=100 hat ±7% Konfidenzintervall. Falls jemand Lust hat drüberzuschauen,
alle Daten liegen offen. Replikation kostet ~$2.
 
Zurück
Oben