Quels GPU pour Utiliser des IA en Local sur son PC ?

En tant que partenaire Amazon, Archigrind réalise un bénéfice sur les achats remplissant les conditions requises.

Si comme moi, vous êtes un amateur de technologie féru d’intelligence artificielle, vous vous intéressez sûrement aux IA génératives.

Plus que de vous y intéresser, vous souhaitez les tester, les bidouiller, bref, les prendre en main.

Mais vous avez une manie : vous ne souhaitez pas payer pour des abonnements et autres frais, vous souhaitez principalement utiliser des modèles d’IA open-source utilisables en local.

Pour produire des images à partir de texte par exemple (les modèles text to image), vous préférez utiliser Stable Diffusion, utilisable directement sur votre machine plutôt qu’un modèle tel que Midjourney ou encore Dall-E.

Pareil pour les IA génératives de type LLM, vous préférez un Mistral ou un Falcon à un ChatGPT ou un Gemini.

Vous souhaitez faire tourner les différents modèles (inference) mais aussi, pourquoi pas, entraîner vos modèles (training).

Mais pour ça, vous savez qu’il vous faut un très bon ordinateur pour pouvoir faire tourner ça en local.

Vous savez vaguement qu’il vous faut une très bonne graphique, mais pas plus.

Si vous vous êtes reconnus dans ces lignes, alors vous êtes au bon endroit car je vais vous expliquer tout ce qu’il faut savoir dans le choix de votre ordinateur pour utiliser localement des modèles d’IA.

Cela vous évitera les erreurs que j’ai moi même commises.

Notez que ce guide s’adresse à des amateurs comme moi qui souhaitent s’amuser avec les modèles d’IA.

C’est parti !

Avantages de l’utilisation de Modèles d’IA Open Source

Commençons d’abord par les bases.

Pourquoi privilégier les modèles d’IA open source utilisables en local ?

Eh bien, plusieurs avantages à cela :

  • Rentabilité : les modèles open source réduisent les barrières financières à l’entrée pour expérimenter et déployer des technologies d’IA. Pas besoin de payer un abonnement ou autre, tant qu’on a déja la configuration nécessaire pour les faire tourner.
  • Personnalisation : les utilisateurs peuvent affiner et adapter ces modèles à leurs besoins spécifiques, améliorant ainsi leur applicabilité dans divers domaines. C’est ce qu’on appelle le fine-tuning.
  • Soutien communautaire : les projets open source bénéficient de l’expertise collective d’une communauté mondiale, conduisant à des itérations et des améliorations rapides.
  • Transparence et confiance : l’accès à l’architecture du modèle et aux données de formation favorise la transparence, permettant aux utilisateurs de comprendre et de faire confiance aux résultats du modèle.
  • Pas de censure : Les modèles open source ne sont pas censurés. Il est du coup possible d’en faire n’importe quel usage. (Peut à la fois être considéré comme un avantage qu’un inconvénient, j’avoue!)

Différence entre Inference et Fine tuning

Pour choisir votre la configuration de votre ordinateur, il est important de connaître la différence entre ces deux termes : inference et finetuning

Je vais prendre le cas de Stable Diffusion pour vous simplifier la compréhension.

Stable Diffusion est une IA générative qui permet principalement de générer des images à partir de texte.

Si vous souhaitez uniquement utiliser des modèles Stable Diffusion pré-entrainés comme SDXL pour générer des images, alors vous faites de l’inference.

L’inference est donc en quelque sorte l’application pratique du modèle entraîné pour faire des prédictions sur de nouvelles données non vues auparavant.

En revanche, si vous souhaitez par exemple entrainer Stable Diffusion pour par exemple produire des images avec votre visage ou apprendre à générer un style d’architecture particulier, vous devez faire ce qu’on appelle du fine tuning.

Le fine tuning nécessite une grande puissance de calcul, beaucoup de mémoire et un temps considérable, souvent effectué sur des GPU ou des clusters de GPU pour accélérer le processus.

L’inférence quant à elle est généralement moins exigeante en termes de ressources que le training (ou le fine tuning) et peut être réalisée sur des GPU plus modestes ou même des CPU, selon la taille du modèle et les exigences de performance.

Le choix de votre configuration dépendra donc énormément de ce que vous souhaitez faire : juste de l’inference, ou bien les deux à la fois.

Maintenant qu’on a clarifié ce point, on peut passer au plat principal : quelle configuration pour utiliser des modèles d’IA en local ?

Quels matériels pour l’IA ?

Je vais aller droit à l’essentiel : le composant le plus important pour votre PC est la carte graphique, et de très loin.

La clé est d’obtenir des cartes graphiques (aussi appelés GPU) les plus récents possibles et possédant autant de VRAM que possible.

Lorsqu’il s’agit d’exécuter des LLM locaux ou autres modèles d’IA génératives, le GPU joue un rôle central. Les GPU dédiés avec une VRAM élevée sont préférables, car ils peuvent accélérer considérablement les calculs requis par ces modèles.

Notez que bien que les cartes graphiques de AMD puissent faire l’affaire, il est fortement recommander de se procurer plutôt ceux de Nvidia.

En ce qui concerne les produits Apple, les nouvelles machines de la série M n’utilisent pas de GPU dédiés, mais les GPU intégrés dont elles disposent sont plus que suffisants pour exécuter des LLM locaux.

Ps : Lorsqu’on parle de VRAM on parle bien de mémoire vidéo appartenant à la carte graphique elle même et pas la mémoire RAM de votre ordinateur !

Pour la petite histoire, les GPU sont plus efficaces que les CPU pour les calculs liés à l’IA à cause de la différence d’architecture.

Les CPU ont moins de cœurs que les CPU mais ces cœurs sont plus puissants et sont optimisés pour une large variété de tâches séquentielles (c’est à dire une tâche après l’autre).

Les GPU quant à eux possèdent des milliers de petits cœurs qui peuvent effectuer des opérations mathématiques simultanément, ce qui est idéal pour les tâches de deep learning nécessitant des calculs massifs et parallélisés.

Quelle carte graphique choisir pour l’IA ?

Pour le choix de la carte graphique, cela dépend de l’utilisation que vous souhaitez en faire (uniquement de l’inference ou à la fois de l’inference ou du training) et du modèle d’IA que vous souhaitez utilisez.

Par exemple, si vous souhaitez utiliser un LLM comme LLaMA 2 :

  • Pour le training, la variante 7B nécessite au moins 24 Go de VRAM, tandis que la variante 65B nécessite une configuration multi-GPU avec chaque GPU ayant 160 Go de VRAM ou plus, comme 2x-4x A100 ou carrément une NVIDIA H100 de NVIDIA.
  • Pour l’inférence, le modèle 7B peut être exécuté sur un GPU avec 16 Go de VRAM, mais les modèles plus grands bénéficient de 24 Go de VRAM ou plus, ce qui fait de la NVIDIA RTX 4090 une option appropriée pour cet usage.

Donc le mieux, c’est d’aller au cas par cas en fonction de ce que vous souhaitez faire.

Gardez seulement à l’esprit que vous devez prendre le maximum de mémoire vidéo (VRAM) que votre budget vous le permet histoire d’être paré à toute éventualité.

Voici quelques conseils d’achat :

  • La Nvidia RTX 3060 V2 est excellente une option si vous souhaitez obtenir beaucoup de mémoire vidéo à petit prix. Elle coûte environ 300€ au moment de la rédaction de cet article et embarque 12 go de mémoire vidéo. Une RTX 4060Ti 16 Go coûte actuellement environ 500 €, soit 200€ de plus que la 3060 V2 pour seulement 4 Go GDDR6 de mémoire vidéo en plus. Bien sûr la RTX 4060Ti reste bien plus rapide donc si vous pouvez vous le permettre, allez plutôt sur une 4060Ti.
  • Quatre 4060Ti (64 Go GDDR6 cumulés pour environ 2000€) sont largement préférables à une RTX 4090 (2000€ environ pour 24 Go GDDR6). Une RTX 4060Ti fera tourner sans problème un modèle LLM 13B. Vous pouvez en monter 4 dans votre configuration et faire tourner confortablement des LLM 70B. Faites gaffe tout de même, il y a des versions de 4060Ti dotées de seulement 8 Go de VRAM, veillez à ne pas faire de confusion au moment de l’achat.
  • Si vous voulez faire tourner vos modèles sur des pc portables, prenez un laptop ayant une 3080 Mobile dotée de 16 Go de VRAM (pas 8 !!) comme cet Acer ou un modèle avec une 4090 qui eux sont tous équipés de 16 Go de VRAM comme ce Medion Erazer. 16 Go de mémoire vidéo, c’est le maximum que vous pouvez obtenir avec un laptop donc va falloir faire avec.
  • Pour les Macbook sous ARM, prenez un Macbook M1, M2 ou M3 avec maximum de mémoire unifiée que votre budget puisse vous le permettre (24 Go le strict minimum).
  • Si vous arrivez à mettre la main sur une carte Nvidia A100, H100 ou RTX 6000 Ada, ça reste aussi une bonne affaire. Ces cartes embarquent généralement beaucoup de mémoire vidéo et sont taillés pour les calculs liés à l’IA.
  • Evitez les cartes graphiques AMD, elles ne sont pas encore assez matures pour le deep learning.
Notez cet article

Oh salut !
Je suis ravi de vous rencontrer.

Inscrivez-vous pour recevoir du contenu de qualité dans votre boîte de réception, chaque mois.

Ps : Je n'envoie pas de messages indésirables !

Laisser un commentaire