Chez BEIDBA, nous croyons que la continuité numérique repose sur la maîtrise totale de nos outils. C’est pourquoi nous intégrons l’IA dans nos processus internes. Non pas comme une intelligence consciente, mais comme un moteur statistique efficace, capable d’exploiter nos données métier avec une précision que nous contrôlons de bout en bout.
À l’ère de l’intelligence artificielle générative, dépendre d’outils cloud tiers (soumis à des pannes de serveurs externes, des modifications unilatérales de conditions d’utilisation ou des variations de tarification au volume) pose un défi majeur aux entreprises. Être contraint d’intégrer l’IA via des infrastructures distantes et opaques crée une rupture dans la maîtrise de nos propres outils de production. La solution pour reprendre le contrôle total de sa chaîne logicielle ? Ce guide vous explique pas à pas comment déployer une solution autonome sur votre propre machine pour interconnecter vos documents internes avec une IA, sans dépendre d’aucun service managé externe.
La Stack Technique
Pour concevoir cette espace de travail local, nous nous appuyons sur des versions stables des outils de l’écosystème IA qui s’exécutent en circuit fermé.
Ollama, le moteur d’exécution local indispensable qui permet de faire tourner des modèles de langage (LLM) et des modèles de vectorisation (embeddings) directement sur votre carte graphique ou CPU, vous affranchissant de toute dépendance à une API externe.
Page Assist, une extension de navigateur open source qui transforme votre navigateur en un véritable hub d’IA, capable de se connecter nativement à l’API locale d’Ollama et de gérer des bases de connaissances (Knowledge Bases) de manière totalement autonome.

Un système RAG performant repose sur l’harmonie entre deux types de modèles ouverts, dont l’architecture est transparente.
- Le modèle d’Embedding (
granite-embedding:latest) : D’une taille optimisée de seulement 60 MB, ce modèle se charge instantanément en mémoire. Sa tâche est cruciale, il aide à transformer vos documents textuels complexes en vecteurs mathématiques au sein de votre base de données vectorielle locale. - Le modèle LLM (Génération) (
granite4.1:3b) : Avec un poids de 2 GB (3 milliards de paramètres), c’est le compromis parfait pour un déploiement local agile. Il offre d’excellentes capacités de raisonnement et de synthèse en français tout en restant extrêmement rapide, même sur du matériel standard (sans nécessiter de GPU haut de gamme).

Le secret d’un RAG précis réside dans la finesse du découpage du texte. Garder la main sur ses outils signifie configurer soi-même ces variables clés pour éviter l’effet « boîte noire » des solutions propriétaires.
- Diviseur de texte : Utilisation du
RecursiveCharacterTextSplitter. C’est l’algorithme le plus recommandé car il découpe le texte en respectant la structure logique des phrases et des paragraphes, évitant ainsi de couper une idée ou une entité sémantique en plein milieu. - Taille des Segments : Fixée à 1000 caractères pour conserver un contexte sémantique riche pour chaque bloc de texte indexé.
- Chevauchement des segments : Configuré à 200 caractères. Ce chevauchement de 20% garantit qu’aucune information importante ne soit perdue ou tronquée à la frontière de deux blocs distincts.
- Nombre de documents récupérés : Fixé à 10. Lors d’une question, le système va extraire les 10 segments les plus pertinents de la base de connaissances pour nourrir le contexte du LLM.
- Limite par défaut : Fixée à un maximum de 50 fichiers téléversés par défaut dans la base de connaissances pour assurer la stabilité des traitements.

Une fois les paramètres d’infrastructure fixés, l’étape suivante consiste à importer la connaissance métier.
Dans notre exemple, une base de connaissances baptisée « Structure » a été créée. Lors du téléversement des fichiers documentaires, Page Assist utilise de manière transparente le modèle d’embedding sélectionné pour vectoriser et indexer le contenu à la volée. Le statut au vert « Terminé » confirme que les fichiers sont indexés et prêts à être interrogés par le modèle de génération, sans qu’un seul octet n’ait transité par un réseau externe.

Tout est en place ! En ouvrant un nouveau chat dans Page Assist, l’utilisateur sélectionne le modèle de génération granite4.1:3b en haut de l’écran. Un indicateur vert confirme qu’Ollama est en cours d’exécution en arrière-plan sur la machine. Il suffit d’activer l’accès à la base de connaissances via le commutateur dédié en bas à gauche de la zone de saisie pour commencer à interroger l’IA. Le modèle répondra exclusivement en s’appuyant sur les documents locaux fournis, garantissant qu’aucune donnée ne transite par internet, sans abonnement externe et sans risque de rupture de service liée à un tiers.

EN BREF…
Déléguer son intelligence métier à des infrastructures cloud hors de contrôle fait perdre de l’autonomie aux entreprises. Grâce à l’agilité d’Ollama et l’ergonomie de Page Assist, vous installez concrètement un moteur de recherche intelligent sur vos propres fichiers.
Exemple, un conducteur de travaux importe ses PPSPS, plans d’exécution et compte-rendus de chantier, et interroge directement l’IA « Quelles réserves sont encore ouvertes ? » une réponse sourcée en quelques secondes, sans fouiller manuellement dans des dizaines de fichiers. Le tout en circuit fermé sur votre poste et aucune donnée confidentielle ne quitte votre machine, aucun abonnement, aucune dépendance à un tiers. C’est la solution idéale pour reprendre le contrôle de vos flux de production et valoriser votre connaissance métier en toute sérénité !








