Analisi SEO completa: di cosa è composta

Il guardiano dei bordi, su Flickr.


La relazione SEO periodica eseguita da Linkomm è alla base degli incontri con i clienti; è composta circa da trenta/quaranta pagine che fotografano la situazione e suggeriscono le azioni da mettere in atto per ottimizzare la posizione sui motori di ricerca.
È divisa in due parti:
  1. una prima parte è relativa all'estrazione di dati dai monitoraggi attivi ( tipicamente Google Analytics, Google Search Console, Moz );
  2. una seconda parte è costituita da strumenti sviluppati ad hoc per indagare l'insieme dei siti che risultano essere concorrenti nelle SERP in modo da trovare le buone pratiche per il posizionamento effettuate dai concorrenti e, in base anche ad esse, definire le strategie per favorire il sito in promozione;
  3. una terza parte finale con i suggerimenti per le strategie da mettere in atto per il miglioramento dei posizionamenti.
In questa pagina viene appena accennata la prima parte, sostanzialmente simile a quella prodotta da professionisti del settore, mentre la seconda viene analizzata più approfonditamente perchè più originale e sicuramente meno presente nel panorama delle analisi SEO.

Questo tipo di relazione viene utilizzata per i clienti interni Linkomm oppure può essere inviata a chi ne fa richiesta; sia che si tratti di clienti finali che di professionisti SEO che utilizzano i dati per le loro analisi sui loro clienti; una specie di "SEO all'ingrosso".
Per ottenere i dati fondamentali il tempo necessario è dell'ordine delle due/quattro ore; divise all'incirca a metà tra tempo macchina e tempo uomo. Non è infatti un processo del tutto automatico; come si vedrà molti dei dati proposti dipendono dal tipo di sito, dalle keyword e dal primo livello di risultati ottenuti, in base ai quali si procede nell'indagine.

Essendo una relazione periodica in questo caso non è prevista, perchè effettuata precedentemente, l'impostazione generale del gruppo di 30/50 keyword sulle quali eseguire il monitoraggio; queste vengono assunte come dato di fatto iniziale e prorogate per un periodo di almeno sei mesi per verificare i miglioramenti medi dei posizionamenti.
L'insieme delle keyword deve descrivere uno o più concetti, in modo che le ricerche siano effettuate non nei riguardi delle singole keyword ma nei concetti che l'insieme delle keyword esprime.

Un'analisi SEO deve condurre a linee di azione per il miglioramento; per questo tutto ciò che viene analizzato è finalizzato all'ultima parte, quella con i suggerimenti da mettere in atto per il miglioramento dei posizionamenti.


Prima parte: i monitoraggi

Google Analytics

Una prima serie di analisi viene effettuata sui dati di Google Analytics o, eventualmente, di un altro sistema di monitoraggio degli accessi.
Vengono individuati i grafici più significativi, comparando l'andamento mensile con il mese precedente ed inquadrandolo nell'arco dell'anno in corso, eventualmente estendendo l'analisi anche agli anni precedenti.
I confronti vengono effettuati tenendo in conto le azioni messe in atto durante il periodo di analisi, per individuare quelle che hanno avuto i migliori riscontri.

Google Search Console

A questo punto si passa su Search Console per individuare quelle che sono state le query più digitate su Google:
  1. confrontando queste keyword con l'elenco delle keyword in analisi;
  2. controllando per ogni keyword la posizione nell'indice, il CTR, le pagine che ne corrispondono; per tutte quelle con CTR sotto il 10% si imposta una revisione della META description;
  3. controllando quali sono le pagine più viste e più facilmente raggiunte tramite ricerca organica, anche in questo caso verificandone posizione e CTR.

Già da queste prime indicazioni possono ricavarsi indicazioni sull eazioni da intraprendere per il miglioramento.

Moz.com

A questo punto entra in gioco un "attore terzo" diverso da Google per certificare i posizionamenti sui motori di ricerca; in questo caso viene utilizzato Moz, ma molti altri sono i tool simili: semRush, searchMetrix per esempio.
Anche in questo caso vengono analizzati tutti quei dati che comportano significativi cambiamenti rispetto al mese precedente, in particolare:
  • i grafici della visibilità rispetto ai concorrenti;
  • i posizionamenti delle singole keyword, anche nei confronti dei concorrenti;
  • l'analisi del site crawl, per evidenziare eventuali errori tecnici presenti;
  • l'analisi delle metriche storiche relative a tutti i link, tenendo conto di quelli specifici mozRank e mozTrust.
In queste analisi, ed in particolare in quelle di posizionamento, si tiene conto dell'elenco di keyword di cui si parlava all'inizio, in modo da avere una traccia costante, mese dopo mese, dei posizionamenti sia delle singole keyword che del loro insieme.
In qualche caso ai dati offerti direttamente da Moz se ne affiancano alcuni con grafici ricavati ad hoc, come, in questo caso, il grafico dell'andamento delle keyword nel tempo: ad ogni linea corrisponde la posizione di una di esse ed in questo caso ci si riferisce ad un periodo di ventiquattro mesi; dal grafico risulta chiaro l'andamento crescente dei posizionamenti.


Periodicamente vengono utilizzati gli strumenti messi a disposizione dal sistema per eventuali messe a punto; ad esempio il page grader consente di verificare quanto una certa pagina sia ottimizzata per una keyword.
Se, fino a questo punto, sono stati utilizzati strumenti 'standard' presenti online, ora inizia la parte più specifica, creata utilizzando strumenti appositamente creati.
L'analisi riguarda l'elenco di keyword precedentemente citato e si compone di parecchie sottosezioni.

Per una migliore descrizione dei dati messi a disposizione fino a questo punto si può vedere il precedente articolo http://www.linkomm.net/relazione_mensile_analisi_SEO.html; l'articolo risalte al dicembre 2015, nel semestre successivo si sono aggiunte alcune parti che sono risultate molto utili per ottenere buoni risultati di posizionamento.

Seconda parte: le indagini

La base dei dati: analisi dei risultati dei motori di ricerca

Innanzitutto per ogni keyword in esame vengono ricercati i risultati dei posizionamenti su Google, ad una profondità che varia tra le 20 e le 100 posizioni; per esempio se abbiamo 40 keyword in esame per una profondità di 70 risultati avremo 2800 siti indicati nelle SERP, ognuno dei quali viene tracciato tenendo conto della posizione raggiunta per ogni keyword.
Naturalmente si può incorrere in doppioni che, mediamente, non superano il 10-20% del totale, quindi tenendo conto dell'esempio precedente potremmo avere circa 2500 risultati univoci.
Per ognuno di essi vengono analizzati una quarantina di parametri relativi ai contenuti delle pagine, ai link verso altri siti, vengono ricercate azioni social che conducano a quegli URL, viene costruito un corpus documentale per analisi lessicali; tutto ciò costitusce il database di partenza sul quale eseguire le analisi.
La costruzione di questa base di dati richiede in input il nome del sito in promozione e la lista di keyword; da subito, o dopo una prima analisi, possono essere inseriti i nomi dei domini concorrenti sui quali eseguire analisi più strette. L'operazione richiede soprattutto tempo macchina; per ottenere risultati di una certa validità nelle SERP è necessario per quanto possibile anonimizzare le ricerche ed eseguirle in più modalità per avere risultati significativi; viene utilizzato un software sviluppato ad hoc per ottenere i dati. Il tempo necessario varia da un minuto a due minuti per ognuna delle keyword; per 50 keyword quindi si va da meno di un'ora ad un'ora e mezza circa.

Corpus di documenti: le analisi lessicali

Le analisi lessicali servono ad avere una immagine globale delle keyword utilizzate e degli argomenti trattati.
Per poterle effettuare è necessario creare quello che viene definito corpus di documenti, ovvero l'insieme dei contenuti di tutte le URL indicizzate: 2500 nell'esempio citato.
Il corpus stesso richiede poi un certo livello di filtraggi per estrarre il solo contenuto testuale, eliminare parti del discorso non utili come articoli e preposizioni, eliminare parti non significative e comuni a tutti i siti ('home', 'login', ecc.): a questo punto si ottiene la cosidetta bag of words, un database organizzato di parole indicizzato sui documenti che le contengono. Questo sarà la base di partenza per le analisi lessicali, che vengono condotte secondo due direzioni: analisi delle keyword e analisi degli argomenti.

Analisi delle keyword
Viene effettuata nel corpus dei documenti tenendo in considerazione:
  1. la frequenza assoluta con cui la keyword appare;
  2. la co-occorrenza in più siti, ovvero qual è la keyword che più spesso si propone in siti diversi:
  3. l'analisi peso TF/IDF (term frequency / inverse document frequency), che "non misura quante volte la parola appare, ma dà una misura dell'importanza di quella parola rispetto alle aspettative desunte da una mole di documenti" (vedi http://www.linkomm.net/SEO-inerenza-e-il-tesoro-nascosto);
  4. l'analisi del chi-square, in questo caso vengono analizzati i documenti del corpus ed estratte le keyword secondo "Keyword extraction from a single document using word co-occurrence statistical information" di Y.Matsuo and M. Ishizuka;
  5. l'analisi keygraph, con questo metodo vengono analizzati i documenti ed estratte le keyword rilevanti utilizzando l'approccio descritto in "KeyGraph: Automatic Indexing by Co-occurrence Graph based on Building Connstruction Metaphor" di Yukio Ohsawa, descritto come semplice, funzionale ed indipendente da specifici domini di conoscenza;
  6. l'analisi degli n-grams, ovvero delle parole che più spesso ricorrono insieme a gruppi di 2-3-4 parole.
Queste analisi ci danno l'idea dello spettro di distribuzione delle keyword utilizzate dai siti concorrenti, evidenziando quelle più originali; si tenga conto che alcuni di questi parametri (TF/IDF in testa) in passato hanno fatto parte dell'algoritmo di Google e potrebbero ancora oggi essere utilizzate.
E' bene ricordare che alla base del corpus di documenti ci sono i contenuti di tutti i siti che risultano dalle interrogazioni fatte sul motore di ricerca per keyword che esprimono uno stesso concetto; rappresenta quindi ciò che il motore di ricerca ritiene utile per il concetto espresso dalle keyword.
Per maggiori approfondimenti: http://www.linkomm.net/seo-e-psiche.html.

Analisi degli argomenti
Definiamo un argomento o topic come un concetto definito da più parole; utilizziamo un algoritmo per trovare quali keyword possano appartenere ad un concetto.
Utilizzo parole invece di keyword per non confondere con quelle utilizzate per l'analisi.
L'algoritmo utilizzato è LDA (Latent Dirichlet allocation): da Newman, Asuncion, Smyth and Welling, "Distributed Algorithms for Topic Models JMLR" (2009), con campionamento SparseLDA e struttura dati da Yao, Mimno and McCallum, "Efficient Methods for Topic Model Inference on Streaming Document Collections", KDD (2009).
Questi metodi sono indipendenti dal linguaggio utilizzato; per una spiegazione del metodo vedi https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation.

Questa è una delle analisi più utili per guidare la redazione di nuovi contenuti.
Dapprima si definisce in quanti argomenti si vuole suddividere il contenuto del corpus di documenti, e quindi di quante parole deve essere definito ogni argomento.
Supponiamo di dividere il corpus in dieci argomenti, ognuno definito da venti parole; disponendo i risultati su un network avremo una grafica di questo tipo:

Ognuno dei 'fiori' descrive un argomento; topic_0 il primo, e via via verso topic_9.
Il colore dei pallini è proporzionale alla loro autorità nel network; l'utilità di questo valore fa parte di studi futuri.
Questo esempio è preso da uno studio  relativo ai pittori piemontesi.
Per ognuno dei 2500 risultati ottenuti dalle SERP viene definito quale sia l'argomento che più si avvicina tra i dieci a disposizione.
A questo punto possiamo ottenere una heatmap che ci indica per ogni link l'argomento corrispondente ed il relativo posizionamento:


Vediamo che in questo caso l'argomento 2 è quello utilizzato sia nella parti 'alte' delle serp, alle prime posizioni, che in quelle basse; le parti 'alte' sono rappresentate dal verde scuro, le altre dal verde chiaro.
Analizzando invece la frequenza con cui gli argomenti sono rappresentati, otteniamo:


A questo punto abbiamo la possibiltà di verificare per quale argomento esiste una migliore correlazione con la posizione, cioè definire quell'argomento che più è presente nei siti alle prime posizioni:



In questo caso è l'argomento 9; si potrà quindi guidare la redazione del sito a creare contenuti relativi soprattutto a questo argomento, del quale forniremo le parole individuate.
Naturalmente i dati vanno presi con le molle, e qui entra in gioco il fattore umano nell'analisi:
  1. i valori di correlazione devono essere importanti; in questo caso valori di 0.05 non sono sufficientemente significativi;
  2. gli argomenti devono essere in qualche modo originali e non generici; ovviamente facendo ricerche su siti di vendita troveremo un argomento che riguarda le parole offerta, prezzo, euro, carrello, acquista eccetera; non potrà certo essere utile per la redazione di contenuti. Nel caso specifico, invece, uno degli argomenti positivamente correlati riporta tra le parole i nomi di alcuni pittori, buona indicazione per i redattori di contenuti.
Termina questa sezione della relazione con un lungo elenco delle corrispondenze tra argomenti e url, in modo da fornire alla redazione alcuni indirizzi utili per 'copiare' le buone pratiche relative ai contenuti.
Nel caso riportato in esempio, gli indirizzi riportati sono:
Infine possiamo riassumere quanto questa sezione ci consente di fornire ai produttori di contenuti:
  1. un elenco di parole frequenti / ricorrenti / importanti / originali sulle quali basarsi per la redazione;
  2. uno o più argomenti da sviluppare;
  3. un elenco di siti utili dai quali prendere spunto.


Analisi di posizionamento

Di ogni URL ne viene estratto il dominio, e per ogni dominio univocamente definito la media delle posizioni rappresentate; così si può ottenere un grafico rappresentato come heatmap che mostra:
  • sull'asse verticale i domini in scala decrescente per posizionamento;
  • sull'asse orizzontale l'elenco delle keyword in scala decrescente per presenza nei domini più rappresentativi sopra citati;
  • All'incrocio della corrispondenza tra dominio e keyword è presente un rettangolo colorato che, a seconda dell'intensità di colore indica un posizionamento più o meno vicino alle prime posizioni.

Ecco un esempio, sul quale sono oscurate le keyword utilizzate ma che, con poca fantasia, possono essere immaginate:

Questo grafico risulta utile per capire quale sia la situazione nel web e quale la posizione del sito in promozione, quali le keyword ben posizionate e quali invece quelle che hanno bisogno di un supporto integrando strategie specifiche per ognuna di esse, strategie che verranno meglio definite nel seguito.
Lo stesso grafico viene riproposto filtrando i siti ed utilizzando solo quelli dei concorrenti diretti, in modo da avere una immagine più nitida del settore di mercato.

Analisi di correlazione

Lo scopo di questa analisi è quello di verificare quale sia il livello di correlazione (viene usato l'indice di correlazione di Pearson) tra i parametri che vengono ricavati per ogni pagina ed il posizionamento  nella SERP.
Dapprima viene effettuata una analisi generale, quindi vengono raggruppati i dati; di seguito seguiremo questo approccio.

Analisi generale

La prima matrice di correlazione è costituita dal confronto tra ogni keyword e ogni parametro:


Le keyword sono riportate a sinistra, oscurate. In basso sono riportati i parametri utilizzati; il primo (length), ad esempio, è la lunghezza della pagina ed i seguenti 4 sono il numero di parole, frasi, sillabe e lettere; flesch e gulpease sono due indici di leggibilità (vedi http://www.linkomm.net/SEO-e-leggibilita-delle-pagine/page_143.html) , e seguono così gli altri parametri.
A destra è riportata la scala di correlazione, dal verde al rosso: quando è positiva (il massimo è uno) indica che c'è correlazione tra quel parametro e quella keyword per quanto riguarda il posizionamento.
In questo modo è possibile verificare ad ogni incrocio parametro/keyword quale sia il livello di correlazione; dove l'incrocio è bianco vuol dire che non ci sono sufficienti dati per rendere il valore di correlazione significativo.
Ad esempio per l'ultima keyword in basso vediamo che c'è correlazione positiva con 'keyInText', cioè col numero di volte in cui la parola è riportata nel testo; oppure per la prima keyword vediamo una correlazione positiva con la presenza del protocollo https.

Da questa heatmap, oltre alle indicazioni specifiche per ogni keyword, possono essere ricavate indicazioni più generali:
- i primi 5 valori, le prime 5 colonne, rappresentano spesso una zona compatta; essendo legate alla lunghezza del contenuto della pagina indicano che mediamente, per tutti i concetti individuati da quelle keyword, c'è correlazione positiva tra lunghezza del contenuto e posizionamento.
- La colonna https non ha quasi mai valori negativi; ciò significa una correlazione mediamente positiva per quel parametro, è meglio utilizzare https per i concetti individuati da queste keyword.

Una prima divisione in settori

Questi stessi concetti possono essere visualizzati in altro modo, raccogliendo i dati in una immagine più compatta e suddividendoli per significato:



In questa immagine per esempio vediamo che il settore 'social', l'ultimo a destra, ha mediamente valori positivi e non si spinge mai molto in basso; ogni puntino rappresenta un valore di correlazione, rosso quando è negativo, blu quando è positivo.

Una seconda suddivisione in zone operative

A questo punto per poter evidenziare le azioni da effettuare, ogni correlazione viene suddivisa in tre macroaree, che sono le tre possibilità di intervento sui siti: scrivere contenuti, cercare backlinks, intervenire sui social.
La heatmap che ne deriva è la seguente:


I valori oscurati sono le singole keyword; tenendo conto della scala a destra risulta chiaro, in questo caso, che nella prima riga ('tot social') ci sono tre valori fortemente gialli; in corrispondenza dei quelle keyword esiste una migliore correlazione con il posizionamento, da qui ne risulta un suggerimento di insistere sui social network soprattutto su queste keyword. Lo stesso si può dire per la riga successiva, relativa ai backlinks, e a quella successiva relativa ai contenuti: si possono così estrarre le azioni da mettere in atto per il miglioramento.

Un raggruppamento globale

Volendo ancora raccogliere una indicazione unica comune si può fare la media di tutti questi valori per indicare il paramentro meglio correlato con il posizionamento in assoluto:


Ancora una volta ricaviamo la conclusione che, per i concetti espressi dall'insieme delle keyword, il parametro meglio correlato con un buon posizionamento è legato al numero di parole che compongono la pagina: questo dall'analisi dei 2500 documenti prima citati.

...ed uno specifico

Siamo passati dal dettaglio keyword/parametro alla visione generale concetto/parametro; volendo invece vedere il dettaglio di una correlazione, possiamo per esempio visualizzare il dettaglio della correlazione con https prima citato per una singola keyword (naturalmente questo si può fare per ognuna delle keyword analizzate:


Ancora approfondendo possiamo vedere il dettaglio della distribuzione della presenza del protocollo https nei primi 50 siti della SERP:



A sinistra, nel verde, ci sono i siti nelle prime posizioni, a destra quelli nelle ultime; dove c'è la barra rossa vuol dire che è presente https che, come si vede, si addensa nei siti nelle prime posizioni e ha quindi una correlazione positiva.

Da questa sezione ricaviamo indicazioni utili per indicare in quali direzioni muovere la strategia di promozione del sito a seconda delle tre azioni principali: generazione di contenuti, ricerca di backlinks, azioni social.

Analisi social network

A questo punto possiamo indagare quanto sia importante, per le keyword in esame, agire sui social network;
Questa parte dell'analisi vuole cercare di capire quanto e come è diffuso l'utilizzo di social network nei siti concorrenti; viene distinta in due parti:
  1. la prima riguarda la presenza e frequenza di collegamenti dai siti dei concorrenti verso i social network;
  2. la seconda riguarda invece le azioni effettuate sui social network verso i link in SERP.


Link verso i social network

Viene eseguita la mappatura di ogni URL nelle SERP con i network che dalle pagine vanno verso i social network; questo il risultato:

Da questa analisi otteniamo la panoramica dei link verso i social network; non sappiamo ancora quanto vengano usati, ma solo quanto vengono linkati. La sezione successiva definisce invece quali azioni vengano effettivamente condotte.

Azioni sui social network

Dapprima evidenziamo le azioni che vengono effettuate sugli URL che meglio si posizionano mediamente nelle SERP:

A sinistra abbiamo i primi 50 URL,  la heatmap ci indica quali siano le azioni effettuate e la loro quantità; in questo caso vediamo che circa a metà un URL è oggetto di azioni social, in questo caso 13 condivisioni su facebook.
Da questa immagine otteniamo una panoramica di ciò che i concorrenti ottengono come azioni da parte dei social network; volendo ancora essere più precisi e sapere a livello di dominio chi siano coloro che più spesso ottengono le attenzioni dei social network, raccogliamo tutti gli URL in base al loro dominio e otteniamo:


A questo punto non resta che correlare azioni e posizionamento, per evidenziare quali azioni eseguite sui social network siano meglio correlate con un buon posizionamento, di nuovo ponendo attenzione a:
  1. correlation is not causation, il fatto che un'azione (es.: condivisione facebook) sia correlata con un buon posizionamento non vuol dire in tutti i casi che questo valga anche per il sito in promozione;
  2. vanno considerati attentamente i valori di correlazione, perchè devono essere significativi per essere utili ad indicare di svolgere effettivamente un'azione.
Nelle due ultime immagini i valori sono molto bassi e poco indicativi; da una parte denunciano la mancanza di una forte azione social e quindi spingerebbero ad inserirsi in un settore in cui è facile primeggiare, dall'altra indicano che, per il concetto espresso dalle keyword, non c'è un grande utilizzo di social network.

E' poi presente, ma qui non riportata, una specifica analisi su twitter: influencers, siti linkati, numero di twit che riguardano le keyword in esame; su questo sarà presto presente una pagina dedicata.

Analisi dati strutturati

Questa è l'ultima parte in ordine temporale ad essere stata aggiunta alle analisi; riguarda l'analisi dei dati strutturati per il web semantico secondo schema.org e la ricerca della panoramica dell'uso che ne fanno i concorrenti e di una eventuale correlazione con il posizionamento.
Rimando ad una pagine che ne parla più esaustivamente: http://www.linkomm.net/SEO-e-dati-strutturati.html, di cui riporto la conclusione: "Sicuramente l'utilizzo di dati strutturati, almeno nel settore considerato, è agli albori. Ciò potrebbe essere una buona opportunità per chi cerca una strategia non ancora battuta dalla maggioranza dei concorrenti per poter emergere nelle SERP. I tipi più specifici sono quelli che sembrano essere più premianti per il posizionamento rispetto a quelli generici.".

In questa sede voglio evidenziare l'attenzione che i dati strutturati hanno rivestito nel tempo:


In questo screenshot da Google Trends si vede che a partire dall'iniziativa schema.org di Bing, Yahoo e Google i dati strutturati ed il web semantico hanno ripreso fiato e ne sta aumentando l'interesse.
Le analisi che vengono effettuate sono la presenza o meno di dati strutturati, i tipi maggiormente implementati, la correlazione tra tipo e posizionamento.
Alcuni esempi:

In questo esempio su circa 1500 siti nelle SERP, la maggior parte (blu) non utilizza i dati strutturati; per gli altri casi ne vengono riportate le tre possibili implementazioni tecniche, delle quali Microdata è quella più utilizzata.
Questa la heatmap della distribuzione dei tipi:


dove si evince che breadcrumb è il tipo di dato più utilizzato, e via via gli altri.
Ed infine abbiamo la correlazione tra tipo di dato e posizionamento, ne riporto i primi valori estratti da una analisi recente:

  1. (LocalBusiness)
  2. (PostalAddress)
  3. (WebPage)
  4. (AggregateRating)
  5. (WPHeader)
  6. (WPFooter)
  7. (CreativeWork)
  8. (Offer)
  9. (Rating)
  10. (BlogPosting)
  11. (image)
  12. (Article)
  13. (UserComments)
In questo caso la conclusione - importante - che se ne può trarre è che l'indicazione dei dati locali come LocalBusiness e PostalAddress risultano essere positivamente correlati con il posizionamento.
Al di là di tante parole fatte negli ambienti SEO per quanto riguarda l'individuazione di modalità per apparire nelle SERP localizzate geograficamente, questa è una preziosa indicazione che ci dice che, per ottimizzare il sito in esame, è bene utilizzare dati geografici che ne indichino la posizione del business.

Analisi di network

Fino a questo punto sono stati utilizzati i link presenti nelle SERP ed i testi in essi contenuti. Viene fatta ora una analisi di rete: da tutte le pagine presenti in SERP vengono estratti tutti i link presenti e si costruisce un grafo che collega tra loro tutti gli URL univoci; su di esso possono essere eseguite analisi complesse che ci indicano l'importanza di ogni singolo nodo o collegamento secondo diversi punti di vista.
Un esempio approfondito lo si trova su http://www.linkomm.net/seo-vs-ppc-assicurazioni.

Il primo passo consite nel creare il grafo che evidenzi tutti i link.
Questo un esempio con 6000 URL collegati con 9000 link:



In questo grafico ogni pallino rappresenta un URL il cui colore va dal giallo al verde a seconda del livello di autorità, e ogni collegamento rappresenta un link che va dal giallo al rosso a seconda che il sito di partenza sia nelle SERP  in una posizione media più favorevole o meno.
E' chiaro che, in questa forma, il grafico non serve a nulla; dalla sua rappresentazione matematica possiamo invece ottenere facilmente dati importanti come, per ogni nodo o URL:
  1. IN, il numero di link in ingresso;
  2. OUT, il numero di link in uscita;
  3. HUB score: esistono pagine in rete che non sono, di per sè, autorevoli per il soggetto ricercato, ma che contengono link, magari accuratamente ricercati 'a mano', verso pagine molto autorevoli; queste pagine hanno nella rete un elevato 'HUB score';
  4. AUTH score: definisce invece le pagine autorevoli, che vengono definite come quelle pagine a cui più puntano le pagine 'HUB'; sembra un cane che si morde la coda, ma ha invece una sua validità: una buona pagina HUB punta a molte pagine AUTH, e una buona pagina AUTH è linkata da molte pagine HUB.
L'analisi accurata di questi valori ci porta facilmente a trovare URL di fondamentale importanza per le nostre ricerche; in particolare le migliori risorse HUB saranno quelle più indicate per andare alla ricerca di backlink, mentre le risorse AUTH potranno indicarci quali siano le migliori modalità di redazione di contenuti per diventare una 'autorità' nel grafo dei risultati. Anche in questo caso si tratta di risorse importantissime per chi deve creare contenuti.

Questa stessa analisi viene ripetuta a livello di dominio; da ogni URL si estrae il dominio di secondo livello e si ricostruisce il grafo collegando ogni dominio; il risultato è più 'rado' rispetto al precedente:


In questo caso viene aggiunto il dominio di partenza del link attorno al quale viene disegnato un cerchio di grandezza proporzionale alla quantità dei link in uscita.
Anche in questo caso l'analisi IN OUT HUB AUTH dà preziose indicazioni per le strategie SEO e per capire a fondo la situazione di rete nella quale ci si trova. Potrebbe capitare, ad esempio, che venga evidenziato che un sito che ospiterebbe volentieri un link a pagamento verso il sito in promozione in realtà riceverebbe più di quello che offre, visto il maggior livello di autorevolezza del sito in promozione rispetto a quello di advertising; al contrario, potrebbero invece essere scelti i migliori siti come risorse HUB adatti ad ospitare un link verso il sito in promozione che ne porti effettivi vantaggi.
Nel caso della rete dell'esempio precedente, relativo alla costruzione di case prefabbricate, questo sarebbe il risultato, come tipo / dominio / valore:

In 1 www.shinystat.com 23.0
In 2 itunes.apple.com 13.0
In 3 www.iubenda.com 13.0
In 4 www.haus.rubner.com 13.0
In 5 it.wikipedia.org 12.0
In 6 www.google.it 10.0
In 7 www.google.com 9.0
In 8 www.immobiliare.it 9.0
In 9 www.addtoany.com 8.0
In 10 www.paginegialle.it 8.0
Out 1 search 613.0
Out 2 www.ilsole24ore.com 89.0
Out 3 canali.kataweb.it 63.0
Out 4 www.rainews.it 62.0
Out 5 www.romatoday.it 47.0
Out 6 quifinanza.it 44.0
Out 7 design.repubblica.it 44.0
Out 8 industriale.wordpress.com 40.0
Out 9 it.pinterest.com 35.0
Out 10 www.corriere.it 34.0
Hub 1 search 1.0
Hub 2 www.casedilegnosr.it 0.015112156709048087
Hub 3 caseprefabbricateinlegno.it 0.013608513536810024
Hub 4 it.pinterest.com 0.010421209826572877
Hub 5 www.genitronsviluppo.com 0.00861051747250366
Hub 6 laversionedibanfi.tgcom24.it 0.006773665126539833
Hub 7 www.huffingtonpost.it 0.006639332771123734
Hub 8 www.smetteredilavorare.it 0.005135247784729771
Hub 9 www.youtube.com 0.005101406933541274
Hub 10 www.casa24.ilsole24ore.com 0.005093374065549457
Auth 1 it.wikipedia.org 1.0
Auth 2 www.barraebarra.com 0.9900377716740923
Auth 3 www.haus.rubner.com 0.9850322034899596
Auth 4 www.prefabbricatisulweb.it 0.9783347812310363
Auth 5 www.immobiliare.it 0.9773945879042112
Auth 6 www.amazon.it 0.9706690862375558
Auth 7 www.agenziacasaclima.it 0.9706113436697665
Auth 8 www.casedilegno.biz 0.9703579437412407
Auth 9 www.architetti.com 0.9692349806681381
Auth 10 casedilegnosr4.altervista.org 0.9671435603745053

Schemi di link

Gli schemi di link, nonostante siano una pratica fortemente sconsigliata da Google, a volte costituiscono la base dell'indicizzazione dei siti; per questo può risultare utile indagare il grafo di rete per ritrovare zone in cui si addensano collegamenti paricolarmente sospetti.
Per fare questo il grafo viene filtrato considerando solo quei gruppi di nodi che linkano contemporaneamente alle stesse risorse.
Si provi a guardare questa rappresentazione di rete:



Si notano immediatamente zone di rete che afferiscono agli stessi nodi che ripetutamente linkano le stesse risorse.
Individuando i siti concorrenti si possono visualizzare gli schemi di collegamenti adottati e le 'affiliazioni' tra siti che reciprocamente si 'spingono' collegandosi l'un l'altro. Anche strategie del tipo PBN (personal blog network) vengono immediatamente evidenziate.
Ciò può essere della massima importanza nel pianificare le strategie di espansione di un sito/dominio verificando quale sia la situazione della rete in generale e dei concorrenti in particolare.

Sottoreti

Allo stesso modo filtrando il grafo per nome di dominio si può ottenre la rappresentazione dei collegamenti che un dominio ha con 'il rersto del mondo'; attenzione però, è una rappresentazione limitata ai siti che appaiono nelle SERP per le keyword indicate e per i collegamenti al loro interno; non vale quindi come rappresentazione generale della rete di un concorrente, bensì serve per visualizzare la porzione del web che viene evidenziata nelle ricerche per quei concetti/keyword.
Per spiegare meglio il concetto, visualizziamo uno di questi network isolando dal grafo dei risultati uno dei domini con maggiore livello di HUB:



Il colore del nodo è proporzionale al livello di OUT; si vede che esistono più domini di terzo livello (forum, magazine, www) che organizzano la 'galassia' dei collegamenti di ricerca.
Volendo concorrere con questo dominio per posizionarsi meglio, si deve suggerire al sito in promozione di dotarsi  di una struttura in grado di realizzare uno schema di rete simile.

Conclusioni

Questo tipo di analisi consente di avere un quadro della situazione web relativa ad un gruppo di keyword che identificano un concetto.
E' un punto di  partenza solido sul quale basare strategie di promozione per ottimizzare il posizionamento di un sito che voglia emergere per quelle keyword.
Non è un sistema automatico; richiede attenzione, analisi, intervento umano prima di agire.
Nel mondo del SEO, nel quale spesso si agisce per misteri e sapere infuso dall'alto, qui si parla di reti, matematica, posizionamenti; tutti i dati sono ricavati a partire dai posizionamenti nelle SERP e tutti gli sforzi ad essi devono essere dedicati.
Con questi dati il consulente SEO è in grado di fornire indicazioni precise per ottenere il suo vero scopo: far sì che un sito che meriti di emergere nella SERP, e per qualche modo non ci riesca, raggiunga un ottimo posizionamento in base alle sue possibilità.

Linkografia minima

http://www.tagliaerbe.com/newsletter/
http://seoblog.giorgiotave.it/seo
http://www.seobook.com/glossary/
http://www.chrisg.com/google-authority/
http://www.albertopuliafito.it/temi/seo/
http://seoblog.giorgiotave.it/seo
http://www.seobook.com/glossary/
http://www.seojoomla.it/seo/microdati-o-rich-snippets-i-dati-strutturati.html
http://www.webhouseit.com/come-google-usa-la-seo-per-superare-twitter-e-facebook/
https://www.ivanodibiasi.com/
http://www.giorgiotave.it/forum/
http://www.giorgiotave.it/


Italo Losero