Darf’s ein bisschen mehr sein?

Die Schachdatenbank Megabase 2017 incl. aktueller Updates umfasst rd. 7 Millionen Partien. (Fast?) alle Partien wurden live am Brett (auf Neudeutsch over the board ) gespielt, ganz überwiegend mit klassischer Bedenkzeit (d. h. wenige Schnellschach- oder gar Blitzpartien).

Nun wird Schach aber seit Jahren nicht nur over the board, sondern – vor allem von Amateur und Club-Spielern – auch und gerade online gespielt. Marktführer chess.com wirbt mit über 18 Millionen Mitgliedern (wohl inklusive inzwischen inaktiver Registrierungen); da wirken die knapp 700.000 Spieler mit einer offiziellen ID des Weltverbandes FIDE schon fast wie eine Minderheit.

Online-Spieler sind es gewohnt, ihre Partien einzeln oder auch insgesamt mit wenigen Klicks herunterladen zu können (um sie z. B. mit einem Schachprogramm nachzuspielen und Fehler zu finden). Lichess setzt hier noch einen drauf: Unter https://database.lichess.org/ kann man alle(!) seit Januar 2013 auf dem Server gespielten Partien downloaden.

Womit sich zunächst einmal ein quantitatives Problem stellt: Die Lichess-Datenbank umfasst über 200 Mio.(!) Partien aus einem Zeitraum von weniger als 5 Jahren (die oben genannte Megabase 2017 umfasst die gesamte Schachturniergeschichte). Um diese Datenmenge rein technisch zu bewältigen, hat Lichess sie in einzelne Monats-Dateien gebündelt. Auch diese lassen sich nicht sinnvoll als PGN-Dateien downloaden, daher hat Lichess sie komprimiert (das Linux-typische Dateiformat bz2 lässt sich auch mit den meisten Windows-Zip-Programmen problemlos öffnen). Aber auch komprimiert reden wir hier von insgesamt über 30 GB Daten.

Nach Download und Entpacken stellt sich das nächste quantitative Problem: Chessbase 13 kann keine PGN-Dateien öffnen, die größer sind als 2 GB (das steht zwar bislang so nirgendwo, aber der freundliche Chessbase-Support kam mir hier mit Rat zu Hilfe). Da sollte man auch nicht zu laut über Chessbase „schimpfen“, denn das PGN-Format ist zwar Standard und entsprechend weit verbreitet, aber sicher nicht erfunden worden, um derartige Partie-Mengen effizient zu verarbeiten.

Die Lösung für das 2-GB-Problem bietet das freie kleine Hilfsprogramm PGN Split. Damit lässt sich eine rd. 25 GB große PGN-Datei (so groß ist allein die Monatsdatei Juli 2017) in 1 GB große einzelne Dateien vollautomatisch zerlegen.

Diese einzelnen PGN-Dateien jetzt in eine große Chessbase-Datei zu importieren (was mein erster Gedanke war) führt leider wieder zu einem quantitativen Problem: spätestens ab 10 Mio. Partien streckt Chessbase 13 mit einem Runtime Error die Waffen. Eigentlich sollte das nicht passieren, denn laut dem (weiterhin freundlichen) Support von Chessbase gibt es keine Obergrenze bei der Größe einer Chessbase-Datenbank (abgesehen von den Systemressourcen des Rechners, aber der sollte mit 16 GB RAM und reichlich freiem Festplattenspeicher noch nicht das Problem gewesen sein).

Lösung für dieses Problem: zunächst jede einzelne PGN-Datei ins Chessbase-Format umwandeln, anschließend diese in Chessbase-Datenbanken zusammenfassen, die nicht wesentlich mehrals 6 Mio. Partien umfassen.

Diese Vorbereitungen kosten Zeit. Sinnlos vertane Zeit? Warum sollte man 200 Mio. online-Partien in einer Datenbank sammeln? Welcher schachliche Erkenntnisgewinn ist hier zu erhoffen?

Zugegeben, die gezielte Vorbereitung auf einen Gegner auf Lichess ist eher selten gefragt (obwohl auf Lichess auch Ligaspiele ausgetragen werden, da ist ein Blick auf das Eröffnungsrepertoire des bekannten Gegners sicherlich nützlich). Auch seltene Perlen sind bei Amateurspielern vermutlich noch seltener zu finden als in den Tiefen des Ozeans (oder vielleicht doch nicht?). Aber wer weiß, vielleicht schlummern hier tatsächlich wertvolle Nadeln im Heuhaufen. Ganz zu schweigen von interessanten Informationen für Schachbuch- und DVD-Autoren: für welche Eröffnungen interessiert sich die Masse der Amateurspieler eigentlich?

Was die in Ratingpunkten zu fassende Qualität der Lichess-Partien angeht hier einmal ein erster Eindruck:

Von den 12 Mio. Partien im Monat Juli wurden mit klassischer Bedenkzeit (das bedeutet bei Lichess Bedenkzeit plus Inkrement mal 30 größer als 8 Minuten) fast 60.000 Partien von Spielern gespielt, die beide ein Lichess-Rating von mindestens 2.000 Punkten hatten. Betrachtet man die 2.000er Grenze einmal klassisch als „Amateur-Meister-Grenze“, so ist das schon eine ganze Menge  Schach mit Niveau für einen Monat (auch die 7 Mio. Partien aus der Megabase 2017 sind mitnichten alle von Spielern mit einem Rating über 2.000 ELO-Punkten gespielt worden, genau genommen sind es nur etwas über 3 Mio.).

Fazit: Die Lichess-Datenbank dürfte die größte frei zugängliche Schachdatenbank sein. Die dadurch bedingten technischen Probleme (Kapazitätsgrenzen) lassen sich momentan wie oben beschrieben beherrschen (eleganter wäre es natürlich, wenn die Dateien gleich Chessbase-geeignet auf dem Lichess-Server lägen). Bislang habe ich „nur“ zwei Datenbanken mit insgesamt 12 Mio. Partien mit Chessbase analysiert; was passiert, wenn man eine Suchanfrage über mehr als 30 Datenbanken mit 200 Mio. Partien laufen lässt wird sich zeigen (geht Chessbase in die Knie oder liefert es nach 24 Stunden Suche ein perfektes Ergebnis)?

 

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.