Leipzig Benchmark – Mathlog

Leipzig Benchmark – Mathlog

Wie beurteilt man die Fähigkeiten künstlicher Intelligenz, komplexe mathematische Probleme zu lösen? Eine Gruppe von 49 Mathematikern hat jetzt einen Fragenkatalog entwickelt, eine Liste von 100 mathematischen Problemen auf Forschungsniveau, mit denen man künstliche Intelligenzen testen kann, um künftige Entwicklungen zu bewerten.

Über den aktuellen Stand liest man auf https://www.mis.mpg.de/de/news/benchmarks-in-leipzig:

Nachdem in der ersten Phase fünf moderne Sprachmodelle die Aufgaben bearbeitet hatten, blieben 41 Fragen ungelöst. Nach weiteren 20 Durchläufen mit den drei leistungsstärksten Modellen in der zweiten Phase reduzierte sich diese Zahl auf 16. In der dritten und letzten Phase wurden zwei sogenannte „Deep-Think“-Modelle jeweils dreimal getestet. Am Ende blieben nur noch zwei Aufgaben ungelöst.

Die Liste der Probleme findet man auf dem ArXiv. Bedingung für die Aufnahme eines Problems war, dass es eine eindeutige, wohl definierte und nicht leicht zu erratende Lösung hat. Entsprechend den Interessen der Autoren sind algebraische Geometrie und algebraische Kombinatorik stark vertreten, es gibt aber auch zahlreiche Aufgaben aus ganz anderen Gebieten. Die beiden auch nach der dritten Phase von aktuellen LLMs ungelösten Probleme sind die folgenden:

Screenshot

Wenn Ihnen der Artikel gefallen hat, vergessen Sie nicht, ihn mit Ihren Freunden zu teilen. Folgen Sie uns auch in Google News, klicken Sie auf den Stern und wählen Sie uns aus Ihren Favoriten aus.

Wenn Sie weitere Nachrichten lesen möchten, können Sie unsere Wissenschaft kategorie besuchen.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert