A hipotézis
A vállalati weboldalak összetett hálózatok, nem dokumentum gyűjtemények. Egy oldal helyzete a hivatkozási gráfban jobban előrejelzi az üzleti funkcióját, mint a tartalmának elemzése.
Hogyan jelzi előre a hálózati topológia 95%-os pontossággal az üzleti logikát, és miért teljesítenek jobban az egyszerű modellek a mély tanulásnál a strukturális auditálásban?
Szerző: Imre Lóránt Dévai
Meg tudjuk-e jósolni, mit csinál egy oldal egy szervezetben pusztán abból, hogy hol helyezkedik el a hálózatban, anélkül hogy egyetlen szót is elolvasnánk a tartalmából?
A vállalati weboldalak összetett hálózatok, nem dokumentum gyűjtemények. Egy oldal helyzete a hivatkozási gráfban jobban előrejelzi az üzleti funkcióját, mint a tartalmának elemzése.
A hagyományos megközelítések a tartalomelemzésre támaszkodnak: kulcsszavak, témák, metaadatok. A szöveges jellemzők azonban kiterjedt NLP-feldolgozást igényelnek, és gyakran figyelmen kívül hagyják azokat a strukturális kapcsolatokat, amelyek meghatározzák az oldal célját.
Az új oldalaknak még nincs hálózati pozíciójuk. Nulla hivatkozás, semmi topológiai adat. Hogyan osztályozod azt a tartalmat, amely a gráfon kívül létezik? Ez teljesen más megközelítést igényel.
Egy nagy vállalati weboldalt elemeztünk: kinyertük a teljes hivatkozási gráfot, és minden oldalra kiszámítottuk a hálózati jellemzőket.
Bejárjuk minden oldalt, és feltérképezzük az összes belső hivatkozást, hogy felépítsük a teljes hálózati topológiát.
Topológiai metrikák kiszámítása: degree, PageRank, betweenness centrality, clustering coefficient, közösségi tagság.
A Louvain algoritmus alkalmazása a hálózati struktúrában rejlő természetes klaszterek megtalálására.
Osztályozók betanítása, hogy pusztán a hálózati pozícióból jelezzék előre az üzleti funkciót.
Kulcsfelismerés: Az egymásra hivatkozó oldalak általában hasonló üzleti célokat szolgálnak. A hálózati struktúra magába kódolja a szervezeti logikát.
Csomópontok felfedezése...
Számszerűsített eredmények a vállalati weboldal-architektúra hálózattudományi módszerekkel végzett elemzéséből.
A hálózati topológia mint elsődleges jel
Önmagában a hálózati pozíció 95%-os pontossággal jelzi előre egy oldal üzleti funkcióját. Egy oldal degree-je, centralitása és klasztertagsága felfedi a szervezeti szerepét.
A struktúra a domináns jel, nem a tartalom
Hálózati vs. szöveges jellemzők
A hálózati jellemzők 34,3 százalékponttal felülmúlták a szövegalapú NLP-jellemzőket. A tartalomelemzés azt ragadja meg, amit egy oldal mond; a topológia azt fedi fel, amit csinál.
A gráfban elfoglalt pozíció többet számít a kulcsszavaknál
A matematika illeszkedik a szervezeti diagramhoz
A Louvain algoritmus által felderített közösségek 94,2%-os homogenitást mutattak a tényleges üzleti egységekkel. A matematikai struktúra tükrözi a szervezeti valóságot.
A hálózati közösségek valós üzleti részlegeket tükröznek
Egyszerű, értelmezhető modelleket teszteltünk a legkorszerűbb mély tanulással szemben. Az eredmények megkérdőjelezték a hagyományos MI-feltevéseket.
Hagyományos gépi tanulás
Döntésifa-együttes, amely minden előrejelzést meg tud magyarázni. Minden osztályozás visszavezethető konkrét jellemzőkre (degree, centralitás, klasztertagság), amelyeket az ember ellenőrizni tud.
Mély tanulási megközelítés
Gráf neurális hálózat, amely a szomszédok aggregálásán keresztül tanulja meg a csomópont-beágyazásokat. Számos gráffeladatban a legkorszerűbb, de az előrejelzések több millió paraméterből bukkannak elő.
Az egyszerű modell magasabb pontosságot ért el, mint a mély tanulási megközelítés, miközben teljesen értelmezhető maradt. A nagyobb összetettség nem mindig jelent jobb teljesítményt.
A kutatás gyakorlati következményei a vállalati weboldal-irányításra nézve.
A hagyományos SEO és tartalomelemzés nem látja a nagyobb képet. Maga a hálózat (hogyan kapcsolódnak, csoportosulnak és áramlanak az oldalak) az elsődleges jel a szervezeti struktúra megértéséhez.
Az irányítási döntéseknél a miért megértése ugyanannyit számít, mint a mi. Az átlátható modellek olyan audit nyomvonalakat, megfelelőségi dokumentációt és érintetti bizalmat tesznek lehetővé, amelyet a fekete dobozos MI nem tud nyújtani.
A mély tanulási modellek nem nyújtanak előnyt ezen a területen, miközben infrastruktúraköltséggel, betanítási idővel és magyarázhatósági adóssággal járnak. A megfelelő eszköz a legegyszerűbb, ami működik.
A hálózati kontextus nélküli új tartalom is hatékonyan osztályozható szöveges jellemzők segítségével. A kétsávos megközelítés vállalati szintű pontossággal kezeli mind a kialakult oldalakat, mind a friss tartalmat.
Egy váratlan eredmény: metaadat-jellemzők (olvashatósági pontszámok, elrendezésszámok, szószintű statisztikák) hozzáadása egy erős hálózati modellhez valójában csökkentette a pontosságot 92,5%-ról 91,9%-ra. A több jel inkább zajt vitt be, mint tisztaságot. Ez megerősíti a hatékonyság elvét: arra koncentrálj, ami számít, a többit hagyd figyelmen kívül.
Beszéljük meg, hogyan javíthatja a hálózattudomány a szervezeted irányítását.
Lépj kapcsolatba