Műhelyjegyzet #001
Hogyan olvasunk egy weboldalt térképként, lista helyett
Ebben a posztban körbejárjuk, mi történik egy Digital MRI során: feltérképezünk egy oldalt, gráffá alakítjuk, és öt lencsén át olvassuk a szerkezetét. Csak a módszer.
Miért nem listákat használunk?
A legtöbb ember listaként képzel el egy weboldalt: van egy főoldal, egy rólunk oldal, néhány termékoldal, egy blog. Ez a modell kényelmes, és majdnem mindig téves. Az oldalak valósak, de azt, hogy egy adott oldalt egyáltalán elér-e bárki (ember, kereső-robot vagy AI-ügynök), nem maga az oldal dönti el. Hanem az oldalak közötti linkek.
Változtasd meg a linkeket, és megváltozik az oldal, még akkor is, ha minden oldal pontosan ugyanaz marad. Helyezz át egy termékoldalt úgy, hogy semmi nem mutat rá az oldalon belülről, és láthatatlanná válik mindennek, ami linkek mentén fedez fel tartalmat, bármilyen jó is az oldal. Az oldal még ott van. Az út hozzá eltűnt.
Ezért nem listaként, hanem gráfként kezeljük az oldalt: oldalak hálózataként, amelyeket linkek kötnek össze. Amint egy oldal gráffá válik, meg tudjuk mérni az alakját, és ez az alak meglepően sokat elárul arról, hogyan teljesít az oldal egy AI-vezérelt keresési világban. Az elemzés teljes változatát Digital MRI-nek hívjuk. Ez a jegyzet azt mutatja be, hogyan működik.
Első lépés: a feltérképezés
Minden a feltérképezéssel kezdődik. A feltérképezőnk (ARGUS-nak hívjuk) oldalról oldalra halad végig az oldalon, és úgy igazítja a beolvasás módját mindegyikhez, hogy egyetlen oldal és egyetlen link se maradjon ki. A különböző oldalak különbözőképpen épülnek fel, ezért az ARGUS mindig azt a megközelítést használja, amelyik az adott oldalhoz a legjobban illik, majd rögzíti, amit talál: mely oldalak léteznek, és mely oldalak mely oldalakra mutatnak.
Néhány szabály vezérli a feltérképezést:
- Tiszteletben tartjuk az oldal “robots” direktíváit. Az oldal által letiltott lapokat soha nem töltjük le. Nem részei az elemzésnek.
- A fő tartalmat olvassuk, nem a keretet. Minden oldal ugyanazt a navigációt, fejlécet és láblécet ismétli. Ezek nem szerkesztői döntések arról, mi mihez kapcsolódik; ezek az épület gépészete. Kinyerjük minden oldal fő tartalmát, a sablonos részt pedig félretesszük.
- Szerkezetet gyűjtünk, nem adatot. Azt rögzítjük, mely oldalak léteznek és melyik oldal melyikre linkel. Nem gyűjtünk személyes adatot vagy felhasználói információt. Az eredmény a nyilvános oldalszerkezet térképe.
Második lépés: oldalakból gráf
Amint a feltérképezés kész, felépítjük a gráfot. Ez a rész egyszerűen megfogalmazható:
- Minden oldal egy csomópont (node) lesz.
- Minden, egyik oldalról a másikra mutató tartalmi link egy irányított él lesz.
A lényeges szó a tartalmi. Minden webhelynek valójában két linkrétege van: a globális navigáció, amely szinte minden oldalon ismétlődik, és a szerkesztői linkek, amelyeket egy szerző szándékosan helyezett egy oldal törzsébe, hogy egy kapcsolódó oldalra mutasson. Mindkettőt összegyűjtjük, mert más-más dolgot árulnak el, és a teljes képet akarjuk látni. A szerkezet méréséhez azonban a szerkesztői rétegre támaszkodunk: ha a navigációs menüt is beszámítanánk, szinte mindent szinte mindenhez kötne, és a gráf értelmetlen folttá válna. Mindkét adathalmazt megtartjuk, és mindig azt használjuk, amelyik az adott mérőszámhoz a legjobban illik.
Ez a szerkesztői gráf az oldal valódi váza. És pontosan ezt járja be egy linkkövető AI-ügynök, amikor egy márkát próbál megérteni úgy, hogy átkattint rajta.
Harmadik lépés: az öt lencse
Egy néhány száz oldalas gráf túl nagy ahhoz, hogy szemmel olvassuk, ezért megmérjük. Öt lencsén át nézzük, mindegyik más kérdésre felel az oldal egészségéről.
| Lencse | A kérdés, amire felel |
|---|---|
| Skeleton | Mekkora az oldal, és mennyire sűrűn összekapcsolt a törzs szintjén? |
| Circulation | Hogyan áramlik a fontosság az oldalak között, és milyen kevés oldal tartja össze az egészet? |
| Organs | Tiszta tematikus szomszédságokba rendeződik a tartalom, vagy egyetlen tagolatlan massza? |
| Health | Hány oldal reked meg? Árvák, amelyekre semmi nem mutat; zsákutcák, amelyek sehová sem mutatnak. |
| Nervous System | A tematikus szomszédságok átlinkelnek-e egymásra, vagy mindegyik silo zárva marad? |
A lencsék mögött standard hálózattudományi mérőszámok állnak: PageRank ahhoz, hogyan koncentrálódik a tekintély, közösségdetektálás a tematikus szomszédságokhoz, betweenness centralitás a teherviselő oldalakhoz, amelyeken minden átfut. A lencsék teszik ezeket a mérőszámokat olvashatóvá.
Amit a mérések újra meg újra megtalálnak
Két minta bukkan fel újra meg újra, nagyon különböző oldalakon és iparágakban.
Az árvák és a zsákutcák független problémák. Az árva egy oldal, amelyre nincs befelé mutató szerkesztői link: létezik, de semmi nem mutat rá. A zsákutca egy oldal, amely kap linkeket, de maga egyet sem kínál: megérkezel, és a nyom megszakad. Az ember azt gondolná, hogy ez ugyanaz a hiba. Pedig nem az. Egy oldalon szinte alig akad árva, miközben az oldalak harmada zsákutca lehet, és fordítva is előfordul. Az egyik kijavítása semmit nem javít a másikon.
A kapcsoltság néhány oldalba koncentrálódik. Sok oldalon az oldalak kis hányada ül a gráfon átvezető utak nagy részén. Távolítsd el ezt a néhány oldalt, és a gráf különálló darabokra esik szét. Ez a koncentráció törékenység: az egész oldal bejárhatósága néhány csomóponton múlik, és ha ezek a csomópontok vékonyak vagy témán kívüliek, minden alattuk lévő örökli a problémát.
Miért számít ez az AI-keresésnél
Kétféleképpen fogyasztanak automatizált rendszerek egy oldalt, és a gráf másképp érinti őket.
Az indexelő robotok (a keresőmotorok és az AI-tanítás mögötti botok) gyakran az oldal XML sitemapjét olvassák, így olyan oldalakat is elérnek, ahová a szerkesztői linkszerkezet nem vezet. Az ügynöki böngészés más: itt egy modell valós időben követ linkeket, hogy egy konkrét kérdésre válaszoljon. Ez nem tölti be előre a sitemapot. Azt járja be, ami szerkesztőileg linkelve van onnan, ahová megérkezik. Ebben a második módban egy oldal, amelyhez nem vezet szerkesztői út, egyszerűen nem létezik.
Ezért a szerkezet maga is egy erős jel. Egy oldal lehet tele kiváló tartalommal, és mégis azzal felel egy AI-ügynök kérdésére, ami éppen a néhány teherviselő oldalán van. A javítás ritkán több tartalom. A javítás szerkezeti: mentsd vissza az árvákat a szomszédságukba, zárd le a zsákutcákat kapcsolódó oldalakra mutató linkekkel, és oszd el a kapcsoltsági terhet, hogy az oldal ne néhány csomóponton függjön.
Pontosan ezt a szerkezeti munkát térképezi fel egy Digital MRI, és ezt mutatja be a sorozat többi része. Az epizódok ezt a lencsét egy-egy oldalra alkalmazzák; az iparági jelentések egy egész kohorszon összegzik. Ez a jegyzet csak a módszer, ami mindez alatt van.
Megjegyzés a módszerről. A feltérképező tiszteletben tartja az oldalszintű “robots” direktívákat; a letiltott oldalakat soha nem tölti le. Mind a globális navigációt, mind a tartalmi szerkesztői linkeket rögzítjük, majd mindig azt az adathalmazt használjuk, amelyik az adott mérőszámhoz illik. A szerkezeti elemzéshez a webhelyszintű navigációként ismétlődő linkcélokat webhelyenként, az adott webhelyhez igazított küszöb alapján azonosítjuk, nem rögzített határértékkel, és félretesszük, így a szerkezeti gráf csak a tartalmi szerkesztői linkeket tükrözi. Az elemzés standard hálózattudományi módszereket használ, köztük PageRank, Louvain közösségdetektálás és betweenness centralitás. Minden adat kizárólag nyilvánosan elérhető oldalszerkezetet képvisel. Nem gyűjtünk vagy tárolunk tartalmat, metaadatot vagy felhasználói adatot. Ez a jegyzet az általános módszerünket írja le, és nem hivatkozik semmilyen konkrét oldalra vagy ügyfélre.