Modele sujet de noel

Pour cela, la boîte à outils de la PNL du chercheur de données contient de nombreux algorithmes puissants: LDA (latent Dirichlet allocation) et sa généralisation non paramétrique, HDP (processus hiérarchique Dirichlet), mais aussi NMF (factorisation matricielle non négative) sont parmi les mieux connues. Si les LDA et les HDP sont des modèles probabilistes bayésiens qui donnent de l`incertitude quant à l`affectation des mots aux sujets, le NMF propose une approche déterministe. Chacune des lignes K de HT peut être interprétée comme un vecteur de rubrique et chaque entrée d`une ligne donnée comme la fréquence relative avec laquelle un mot se produit dans la rubrique. En triant les entrées de la ligne, nous pouvons former des listes classées de mots décrivant le sujet. Nous en montrons un exemple dans le tableau 1. Chacune des N rangées de W est l`encodage d`un document dans la base de la rubrique. Chaque entrée d`une ligne donnée de W est la proportion du document qui est «pris» à partir d`un sujet donné. Plus généralement, nos résultats montrent comment nous pouvons appliquer les mêmes idées mathématiques à deux problèmes extrêmement populaires et surtout déconnectés: l`inférence de sujets dans les corpus et des communautés dans les réseaux. Nous avons utilisé cette connexion pour obtenir des modèles de rubriques améliorés, mais il existe de nombreux résultats théoriques supplémentaires dans la détection communautaire qui devraient être explorés dans le contexte du modèle de sujet, par exemple, des limites fondamentales à l`inférence, telles que l`indétectable détectable transition de phase (49) ou l`analogie avec des systèmes de spin de genre Potts en physique statistique (50). En outre, cette connexion permet aux nombreuses extensions du SBM, telles que les versions multicouche (51) et annotées (52, 53) d`être facilement utilisées pour la modélisation de thèmes de texte enrichi, y compris les hyperliens, les citations entre les documents, etc.

Inversement, le domaine de la modélisation de sujets a longtemps adopté une perspective bayésienne à l`inférence, qui, jusqu`à présent, n`a pas vu une utilisation généralisée dans la détection communautaire. Ainsi, les idées issues de la modélisation de sujets concernant soit la formulation de antécédents appropriés, soit l`approximation des distributions postérieures pourraient catalyser le développement de méthodes statistiques améliorées pour détecter les communautés dans les réseaux. En outre, l`application traditionnelle de modèles thématiques dans l`analyse des textes conduit à des classes de réseaux généralement pas considérés par les algorithmes de détection de la communauté. Le réseau de mot-document est bipartite (mots-documents), les sujets/communautés peuvent se chevaucher, et le nombre de liens (jetons de mot) et les noeuds (types de mot) sont reliés les uns aux autres par la Loi de Heaps`. En particulier, ce dernier aspect se traduit par des réseaux denses, qui ont été largement négligés par la communauté des réseaux (54). Ainsi, les modèles de rubriques pourraient fournir des informations supplémentaires sur la façon d`aborder ces réseaux car il reste difficile de savoir comment ces propriétés affectent l`inférence des communautés dans les réseaux de documents Word. Plus généralement, la Loi de Heaps ne constitue qu`une des nombreuses lois statistiques en langue (14), comme la loi bien connue de la Zipf (15). Bien que ces régularités soient étudiés de manière empirique, peu de tentatives ont été faites pour les incorporer explicitement comme connaissances préalables, par exemple en formulant des processus génératifs qui conduisent à la Loi de Zipf (27, 28). Nos résultats montrent que le SBM offre une approche flexible pour faire face à la Loi de Zipf qui constitue un défi pour les modèles de pointe de pointe tels que LDA.

Κατηγορίες: Χωρίς κατηγορία. Προσθήκη στους σελιδοδείκτες.