Un autre défi est la disponibilité de «normes d`or» évaluées par rapport auxquelles les systèmes d`information expérimentaux peuvent être évalués. Malgré les restrictions évoquées ci-dessus, les jugements de pertinence faits dans nos recherches n`étaient pas toujours simples. L`ambiguïté existe dans l`histoire naturelle d`un processus de la maladie, la clarté de ses manifestations, les capacités des observateurs, et la compétence des observateurs dans l`utilisation de la langue pour enregistrer leurs résultats. Ces facteurs ajoutent à la difficulté de juger la pertinence de certains rapports, même avec les concepts «pertinents» mis en évidence par RelHelper. Cela a peut-être contribué à ce que les collections de formation ne soient pas complètement représentatives des collections d`essais, ce qui nuirait aux performances du système. Hripcsak et coll. 31 ont récemment étudié la fiabilité des médecins dans l`extraction des faits des rapports de radiologie afin de créer des normes de référence pour la recherche sur les systèmes d`information. Un seul examinateur de documents a participé à nos recherches, et la validité ou la cohérence de ces jugements de pertinence n`a pas été examinée. Le classificateur ad hoc est conçu pour fournir une capacité de classification de texte de façon entièrement automatisée, compte tenu d`une collection de documents de formation jugés pertinents. Lorsque le système est formé avec un nombre suffisant de documents représentatifs, le classifieur formé peut trier une grande collection de documents dans les trois groupes de classes ad hoc définies par l`utilisateur, ce qui permet d`examiner les documents de façon à ce qu`ils soient limités à ceux du classe incertaine. NegExpander est une approche qui peut distinguer positive des preuves négatives et peut jouer un rôle important dans la classification lorsque l`examen des preuves négatives est critique.
À l`aide de RelHelper, l`expert sélectionne tous les concepts extraits de la collection, un ensemble de concepts clés qui sont les plus pertinents pour la question de classification. RelHelper génère une requête Seed avec les concepts sélectionnés, 26 exécute cette requête sur la collection et présente les documents classés en fonction de la requête Seed. L`expert du domaine passe ensuite en avis les documents, soit haut ou bas sur cette liste, et fait des jugements de pertinence sur eux. Le temps de l`utilisateur est optimisé en permettant à l`utilisateur de se concentrer sur les documents les plus susceptibles de fournir des preuves positives et négatives utiles au classifieur, sans avoir à examiner et juger tous les documents ou les sélectionner aléatoirement. Dans d`autres expériences, la combinaison de 40 termes simples avec un nombre quelconque de concepts de phase nominale n`améliore pas le profil. Nous nous attendions à l`ajout de phrases pour améliorer les performances, mais les résultats expérimentaux démontrent que les phrases ne sont pas une caractéristique importante de cette collection. Les expériences avec les paramètres de pondération de Rocchio ont établi les meilleures performances — F mesurent 93,3%, avec β = 6 et γ = 2 — bien que plusieurs autres paramètres améliorent également les performances du classifieur. où relset est l`ensemble des documents pertinents et | relset | est le nombre de documents pertinents. Le produit de la revue de dossier médical pour une grande population de patients est généralement l`analyse statistique des groupes au sein de la population, qui sont classés selon la présence, l`absence, ou la valeur des attributs cliniques spécifiés. Étant donné que les dossiers doivent être examinés de manière approfondie par les prestataires de soins de santé pour assurer l`exactitude de leur catégorisation, l`objectif d`un système ad hoc de classification des documents médicaux est de réduire l`effort manuel requis en réduisant le nombre d`enregistrements que le les prestataires doivent examiner en profondeur. Le problème est donc d`aider la personne qui examine les dossiers à définir des catégories d`intérêt et à identifier rapidement les dossiers nécessitant un examen manuel.
Les documents classifiés sont en fait classés en six bacs: trois bacs pour les documents pertinents et trois pour les documents non pertinents, indiqués dans ▶. le vrai positif signifie qu`un document pertinent est trié dans le casier positif, alors que le faux positif signifie qu`un document est trié dans le bac positif.