GeForce RTX 4090: Tensor-Kerne und ML/DL Leistung

PHuV

Banned
Registriert
März 2005
Beiträge
14.219
Es gibt einen ersten Test für ML/DL/KI Anwendungen für die Nvidia RTX 4090

NVIDIA RTX4090 ML-AI and Scientific Computing Performance (Preliminary)

Siehe auch die alte News
GeForce RTX 3080: Tensor-Kerne im Vergleich zu Turing und A100

Ich sitze hier auch seit mehreren Tagen daran, wieder ein solche Umgebung mit Ubuntu 20.04 LTS oder 22.04.1 LTS aufzubauen, und scheitere permanent an so vielen Stellen. Jeder Benchmark bricht leider ab, und selbst mein Schwiegersohn in spe, der täglich mit dem Zeugs arbeitet, hat es hier bei mir in 2 Stunden nicht geschafft, die tf_cnn_benchmarks zum laufen zu bekommen. Vermutung ist, daß diese Scripte für das benötigte Cuda 11.8 zu alt sind, und Cuda 10 wie tensorflow 1.15.1 wie 2.3.0 laufen nicht mit der 4090 zusammen.

Aber ich bleibe dran.
 
  • Gefällt mir
Reaktionen: ZuseZ3
PHuV schrieb:
Jeder Benchmark bricht leider ab, und selbst mein Schwiegersohn in spe, der täglich mit dem Zeugs arbeitet, hat es hier bei mir in 2 Stunden nicht geschafft, die tf_cnn_benchmarks zum laufen zu bekommen. Vermutung ist, daß diese Scripte für das benötigte Cuda 11.8 zu alt sind, und Cuda 10 wie tensorflow 1.15.1 wie 2.3.0 laufen nicht mit der 4090 zusammen.
Woran scheitert es genau?
dieser cudnn / cuda stack ist zickig ohne ende :D

Was sagt schwiegersohn zu den verwendeten Benchmarks? ResNet 50 und die verwendeten transformer sind schon recht klein. Was oberhalb von 100mio parametern wäre interessant
 
einfach noch ein bisschen warten.
Linux hängt in Treibersachen immer hinten dran.
 
@wern001 sie haben es unter ubuntu getestet. Wenn es schon so weit durchgetropft ist, wird das auf den meisten Distris funktionieren

@PHuV
Wenn ich das im repo richtig lese, steht da halt auch, dass der code nicht auf tf2 portiert wurde.
Schau doch mal in den TF Model Garden oder Huggingface Zoo
 
  • Gefällt mir
Reaktionen: PHuV
madmax2010 schrieb:
Woran scheitert es genau?
Direkte Meldungen im Python Code, aber da muß ich nochmal forschen.

Code:
2022-10-15 18:18:24.651867: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.11.0
Traceback (most recent call last):
  File "resnet.py", line 20, in <module>
    import tensorflow as tf
  File "/home/xxx/.local/lib/python3.8/site-packages/tensorflow/__init__.py", line 433, in <module>
    _ll.load_library(_main_dir)
  File "/home/xxx/.local/lib/python3.8/site-packages/tensorflow/python/framework/load_library.py", line 154, in load_library
    py_tf.TF_LoadLibrary(lib)
tensorflow.python.framework.errors_impl.NotFoundError: /usr/local/lib/python3.8/dist-packages/tensorflow/core/kernels/libtfkernel_sobol_op.so: undefined symbol: _ZNK10tensorflow8OpKernel11TraceStringB5cxx11ERKNS_15OpKernelContextEb

Und diese Meldung bekomme ich auch, wenn ich es direkt über die NVIDIA / DeepLearningExamples probiere.
madmax2010 schrieb:
dieser cudnn / cuda stack ist zickig ohne ende :D
Die Treiber, Cuda selbst und das Toolkit lassen sich gut installieren. Auch die ganze Tensorflow-Sachen klappt recht einfach. Schwiegersohn hat mir eine Kompatibilitätsmatrix gezeigt, die ich so noch gar nicht kannte.
https://transang.me/cuda-cudnn-driver-gcc-tensorflow-python-version-compatibility-charts/
Probleme gibt wohl mit Tensorflow 2.10
https://github.com/google-research/multinerf/issues/47

madmax2010 schrieb:
Was sagt schwiegersohn zu den verwendeten Benchmarks? ResNet 50 und die verwendeten transformer sind schon recht klein.
Ja, zum dem Schluß kamen wir auch.
 
Zuletzt bearbeitet:
Zurück
Oben