GraphRAG : L'avenir de la recherche augmentée ?

Dans un monde où les données prolifèrent à une vitesse vertigineuse, la question de l'interaction avec ces informations, en particulier les données non structurées, devient cruciale. Qu'il s'agisse d'images, de vidéos, de textes ou d'enregistrements audio, ces données sans format prédéfini représentent un défi majeur pour l'analyse informatique. C'est ici que le GraphRAG entre en scène, combinant les forces de la génération augmentée par la recherche (Retrieval Augmented Generation, RAG) avec celles des graphes de connaissances. Mais concrètement, de quoi parle-t-on lorsqu’on mobilise ces concepts ?

Du RAG au GraphRAG : une mindmap pour l’IA ?

Le RAG traditionnel, utilisé par des modèles comme ChatGPT ou Claude, excelle dans l'extraction d'informations spécifiques basées sur la similarité sémantique. Cependant, il montre ses limites face à des requêtes complexes nécessitant une synthèse approfondie ou l’identification des thématiques qui se dégagent des documents.

GraphRAG va plus loin en intégrant des graphes de connaissances, qui relient des entités (personnes, concepts, lieux) sur base de leurs relations. Ces graphes fonctionnent comme des réseaux de données interconnectés, au sein desquels chaque nœud représente une entité (personne, concept, lieu) et chaque lien illustre la relation entre ces éléments. Par exemple, un graphe pourrait relier "Harry Potter" à "J.K. Rowling" en indiquant qu'elle en est l'auteure, ou encore associer "Londres" à "Royaume-Uni" en signalant que c’est la capitale. Cette intégration ajoute une contextualisation plus riche des informations et permet le raisonnement sur l'ensemble du jeu de données, ce qui est impossible avec le RAG traditionnel.

Prenons un exemple concret : Identifier les entreprises pharmaceutiques investissant dans la thérapie génique et l'impact de ces investissements. Alors que le RAG traditionnel se limite à extraire des segments de textes pertinents sur des mots-clés, GraphRAG construit un graphe de connaissances qui relie les entreprises, les investissements et les résultats de performance. Grâce à cette approche, il peut répondre à des questions complexes, comme celles sur l'évolution des investissements en R&D ou les essais cliniques en cours, tout en offrant une vue d'ensemble claire et précise. Il permet également d'identifier des signaux faibles et d'analyser les tendances émergentes, facilitant ainsi la prise de décision stratégique pour les analystes.

Solutions GraphRAG disponibles sur le marché

Microsoft propose une solution GraphRAG open source qui se distingue par son intégration fluide et sa grande évolutivité. Cette solution utilise la puissance des grands modèles de langage (LLMs) pour créer des graphes de connaissances, permettant ainsi une meilleure exploitation des données. Microsoft GraphRAG est conçu pour intégrer les graphes de connaissances dans une base de données vectorielle (LanceDB), en suivant un processus structuré :

  1. Indexation et prétraitement des données : Les documents sont découpés en unités textuelles, puis transformés en représentations vectorielles (embeddings) capturant leur signification sémantique.
  2. Construction du graphe de connaissances : Extraction des entités et des relations pour créer des triplets qui sont stockés dans une base de données de graphes.
  3. Détection et hiérarchisation des communautés : Les entités sont regroupées en communautés via des algorithmes de clustering, organisées de manière hiérarchique pour une meilleure compréhension.
  4. Résumé et enrichissement du contexte : Des résumés sont générés pour chaque communauté, fournissant un contexte enrichi et adapté aux besoins des utilisateurs.
  5. Liaison et mappage : Les entités et relations sont liées aux unités de texte d'origine, et le graphe est indexé pour une recherche efficace.

Ces groupes et relations sont ensuite utilisés par Microsoft GraphRAG pour fournir des réponses précises et adaptées. Cette approche permet de réaliser des recherches à différents niveaux : soit des recherches locales en partant de la similarité sémantique pour remonter jusqu'aux thèmes, soit des recherches globales en partant des grands thèmes pour retrouver les documents concernés. Cela permet d'obtenir des réponses plus exactes et explicables que celles fournies par les méthodes classiques.

Microsoft met à disposition une librairie Python tout-en-un qui permet aux développeurs d'expérimenter avec GraphRAG en local. Cette approche rend la prise en main rapide et flexible. En parallèle, Microsoft déploie progressivement GraphRAG dans ses solutions cloud Azure, ouvrant ainsi la voie à un traitement à grande échelle et une intégration aisée avec des systèmes d'analyse existants.

Neo4J LLM Knowledge Graph Builder

Neo4J propose une autre approche intéressante avec son "LLM Knowledge Graph Builder", qui permet de transformer du texte non structuré en graphes de connaissances riches. Disponible via une interface en ligne ou via un projet GitHub pour python, cette solution repose sur des bases de données graphe, spécialité de Neo4j. Les bases de données en graphe offrent une plus grande flexibilité dans la manipulation des relations complexes et des performances optimisées via le  langage de requêtes Cypher. Neo4J propose également des visualisations plus puissantes pour l'exploration des données, ce qui est un avantage par rapport à Microsoft GraphRAG.

Principales étapes de la construction du modèle :

  1. Extraction des entités et relations : le texte est analysé pour en extraire des entités (comme des personnes ou des organisations) ainsi que les relations entre elles.
  2. Construction du graphe : les relations sont modélisées sous forme de graphe, offrant une représentation visuelle des connexions.
  3. Visualisation et exploration : une interface cloud permet de visualiser ces graphes et de poser des questions en langage naturel. Cela facilite la compréhension des données complexes.

Neo4j propose des options de recherches permettant de s’approcher de ce que propose Microsoft GraphRAG.

Forces et faiblesses du GraphRAG aujourd’hui

Forces :

  • Précision accrue dans l'analyse de données complexes.
  • Compréhension améliorée des relations entre différentes sources d'information.
  • Vue d'ensemble holistique facilitant la prise de décision.

Faiblesses :

  • Complexité accrue : l'architecture est plus complexe que celle d'un RAG classique.
  • Optimisation des performances : le traitement des requêtes en temps réel peut être plus lent, ce qui nécessite une optimisation particulière.
  • Coûts plus élevés : il faut compter environ 3 dollars pour 250 000 tokens avec ChatGPT 4o (environ 500 pages de contenu), uniquement pour l’indexation des nouveaux documents.

Le GraphRAG représente une évolution majeure dans la recherche augmentée. En associant la puissance des grands modèles de langage à la richesse des graphes de connaissances, il permet d'explorer les données non structurées avec une précision et une profondeur sans précédent. Que vous soyez développeur, responsable de données ou dirigeant, cette technologie offre des perspectives considérables pour mieux comprendre et exploiter des ensembles de données complexes.

Le GraphRAG est certainement une technologie à surveiller de près dans les années à venir.

Liens :

Heading 1

Heading 2

Heading 3

Heading 4

Heading 5
Heading 6

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.

Block quote

Ordered list

  1. Item 1
  2. Item 2
  3. Item 3

Unordered list

  • Item A
  • Item B
  • Item C

Text link

Bold text

Emphasis

Superscript

Subscript

Découvrir nos autres articles

Les dernières avancées du monde de la Data et de l'IA et leurs cas d'usage analysés par nos experts techniques et entreprises partenaires. Du contenu exclusif, à la pointe de votre industrie.

Sécurité et lutte contre la désinformation au sein de ChatGPT

L'intelligence artificielle est aujourd'hui au cœur de nombreuses transformations technologiques, économiques et sociales. Si elle offre des opportunités considérables, elle soulève également des préoccupations majeures, notamment en matière de désinformation. Ce phénomène, qui consiste à diffuser intentionnellement des informations fausses ou trompeuses, a pris une ampleur nouvelle avec l'essor des technologies d'IA. Dans cet article, nous explorons les mécanismes de désinformation à l'ère de l'IA, les risques qu'elle présente, ainsi que les solutions mises en place au sein de ChatGPT pour y faire face. Cet article est basé sur l’échange de Paul Mochkovitch, co-fondateur et Tech Lead de Molia, avec Florent Joly, expert en intelligence artificielle et sécurité chez OpenAI.

Découvrir l'article

GraphRAG : L'avenir de la recherche augmentée ?

Dans un monde où les données prolifèrent à une vitesse vertigineuse, la question de l'interaction avec ces informations, en particulier les données non structurées, devient cruciale. Qu'il s'agisse d'images, de vidéos, de textes ou d'enregistrements audio, ces données sans format prédéfini représentent un défi majeur pour l'analyse informatique. C'est ici que le GraphRAG entre en scène, combinant les forces de la génération augmentée par la recherche (Retrieval Augmented Generation, RAG) avec celles des graphes de connaissances. Mais concrètement, de quoi parle-t-on lorsqu’on mobilise ces concepts ?

Découvrir l'article

OCBC : Cas d’usage IA en milieu bancaire

Au cœur des mutations qui redéfinissent le secteur bancaire, l'intelligence artificielle générative (IA Gen) émerge comme un puissant catalyseur de transformation. Cependant, son adoption dans un environnement aussi réglementé que la banque pose des défis uniques. Sous la direction d'Adrien Chenailler, Head of Data Science, la banque a mis en place une structure solide pour identifier, sélectionner et déployer les projets IA ayant le plus de valeur ajoutée. Cet article explore les critères et la méthodologie utilisés par OCBC pour choisir les cas d’usage en IA, tout en s’attardant sur les résultats attendus et les enseignements tirés.

Découvrir l'article

Edouard D’Archimbaud, CTO Kili Technology - Fine-tuning et annotation : comment Kili améliore la qualité de vos jeux de données ?

La qualité des données est la pierre angulaire de l'entraînement des modèles de Machine Learning. Alors comment l'optimiser ? Dans ce troisième épisode de Paroles d'IA, Paul Mochkovitch reçoit Edouard D’Archimbaud, expert en IA et co-fondateur de Kili Technology.

Découvrir l'article

L'implémentation des modèles LLMs à grande échelle : opportunités, défis et retours d'expérience

L’implémentation des modèles de langage à grande échelle (LLMs) ouvre des perspectives inédites dans le domaine de l’IA générative. Toutefois, leur déploiement industriel présente des défis techniques et stratégiques considérables, exigeant une approche rigoureuse et réfléchie. Cet article explore les retours d’expérience d’experts, offrant des clés pour réussir la transition de ces technologies vers des usages concrets en entreprise.

Découvrir l'article