SEO e fattori di ranking: sono costanti?

Immagine da wata1219.


Cercando di approfondire i concetti impostati nel precedente articolo 'Fare SEO con l'acqua calda' tramite una analisi più approfondita cerco in questo articolo di verificarne le conclusioni.

A che punto eravamo?

L'articolo citato parlava dei fattori di ranking, ed in particolare dell'importanza di avere link dai social network per migliorare la posizione nei risultati di ricerca (SERP).
Si era giunti alla conclusione che per ottimizzare un contenuto per ricerche relative a termini generici è necessario essere presenti in social network generalisti, mentre se l'oggetto dell'ottimizzazione è un contenuto specifico è meglio avere link da social network più specifici: la scoperta dell'acqua calda, si concludeva.

Ciò che si vuole fare oggi è indagare ulteriormente l'argomento:
  1. allargando il campo di indagine ad altri fattori di ranking diversi dai 'social signals'
  2. utilizzando una serie di keyword palesemente diverse per promuovere contenuti di diverso tipo
Gli obbiettivi che si vogliono raggiungere:
  • verificare se i fattori di ranking sono costanti per diversi tipi di contenuti
  • nel caso che lo siano, cercare se esiste un pattern di distribuzione dei fattori di ranking sulla tipologia di documenti.
La strada che si vuole percorrere per raggiungere gli obbiettivi è composta da questi passi:
  1. Definizione keyword: definire diversi ambiti specifici nei quali scegliere tra le keyword più gettonate; per ogni ambito viene scelta una keyword
  2. Analisi del corpus dei risultati: per ognuna delle keyword vengono analizzati i primi 100 risultati derivanti dalla ricerca google anonima; vengono scaricate le 100 pagine relative che costituiscono il corpus sul quale eseguire analisi lessicali e semantiche.
  3. Analisi della correlazione tra keyword e posizionamento: dagli URI e dal corpus vengono ricavati i parametri che verranno indagati come potenziali fattori di ranking, verificando i valori di correlazione tra posizionamento e fattore in analisi. I parametri vengono divisi in tre gruppi: social signals, backlinks, content signals.
  4. Comparazione delle correlazioni: vengono confrontati i valori di correlazione tra le diverse keyword per verificare se sono concordi o se, cambiando la keyword, vengono anche a cambiare i fattori di ranking




1 - Definizione delle keyword

Per definire quali keyword utilizzare in diversi ambiti faccio riferimento a google Suggest e google Trends; queste le keyword scelte:

settore keyword
ecommerce abito lungo
software sviluppo app
news situazione siria
scienza agricoltura biologica
sport US open 2015
   



2 - Analisi del corpus dei risultati


L'elaborazione, per ogni keyword, viene fatta in due passaggi: prima cercando i significati semantici ed i parametri lessicali (come nell'esempio dell'articolo "seo e psiche"), quindi ricercando i parametri relativi all'indicizzazione dei tre parametri principali relativi ai 'ranking factors': backlinks, social signals, tipo di contenuti.
Trovate in  'googlekeys.zip' il primo passaggio per la keyword 'abito lungo'; trovate invece a http://www.linkomm.net/knime/demos/ l'esempio delle due analisi per un'altra keyword 'rider cup 2015';

L'elaborazione richiede circa 30 minuti per ogni keyword; è stata effettuata utilizzando la piattaforma Knime, le API messe a disposizione dai social network e sistemi di analisi, da alcuni script creati ad hoc per questa analisi.
I risultati utili ai fini di questa ricerca sono presenti soprattutto nel secondo passaggio per ogni keyword.
I parametri considerati per cercarne la correlazione sono (in ordine sparso):

 
 parametro
valore sul grafico
posizione assoluta nei risultati google italia
position
Numero di shares su linkedin
Linked In Shares
Lunghezza del titolo
lengthTitle
Numero di immagini nel documento
imagesNumber
Numero di backlinks
Backlinks Page
presenza del campo H1
h1
Alexa Rank
Alexa Rank
Presenza di protocollo https
https
Google Plus Likes
Google Plus Likes
Lunghezza del testo del documento
length
Facebook Shares
Facebook Shares
Facebook Likes+Shares+Comments
Facebook Likes+Shares+Comments
Facebook Likes
Facebook Likes
Somma di tutti i parametri social
allSocial
Facebook Comments
Facebook Comments
presenza della kw nel testoalternativo dell'immagine
imageAltKey
numero di volte in cui la kw è presente nei link
numKeyInLinkText
numero di volte in cui la kw è presente nel testo
keyInText
Numero  di Pinterest Pind
Pinterest Pins
Backlink verso ildominio
Backlinks Domain
Tweets
Twitter Tweets
presenza della kw nel title
keyInTitle
visite giornaliere
Daily Page Views
visitatori giornalieri
Daily Visitors
presenza della km nel href dei link
linkKey
presenza della kw nel 'title' dell'>IMG>
imageTitKey
presenza della kw in H1
keyInH1
presenza dell'indirizzo in DMOZ
DMOZ Accepted
valore  in WebOfTrust
Web of Trust Trustworthiness
presenza della kw nel SRC dell'immagine
imageSrcKey
   

Ad esempio, per la prima delle keyword considerate, 'abito lungo', ecco alcuni parametri che risultano dall'elaborazione:


URL "Facebook Likes" "Facebook Shares" "Facebook Comments" "Facebook Likes+Shares+Comments" "Twitter Tweets" "Linked In Shares" "Backlinks Domain" "Backlinks Page" "DMOZ Accepted" "Web of Trust Trustworthiness" "https" "Alexa Rank" "Daily Visitors" "Daily Page Views" "Google Plus Likes" "Pinterest Pins"
http://www.missoni.com/it/missoni/donna/abiti 21 5 0 26 10 0 37 9 0   0 0 0 0 6 0
http://www.tezenis.it/en/collections/donna/maglieria/abiti/ 42 59 89 190 0 0 174,4 107 1 61 0 22,56 21,117 46,457 4 0
http://www.wordreference.com/iten/abito 15 10 5 30 4 0 11,023,501 3 0 68 0 0 0 0 0 0
http://www.huffingtonpost.it/2014/02/12/kate-middleton-abito-lungo-collier-diamanti-regalo-regina_n_4772606.html 0 0 0 0 0 0 2,706,358,479 0 1 93 1 9 52,934,266 116,455,385 0 0
http://www.ebay.it/sch/Vestiti-/63861/i.html 0 0 0 0 0 0 1,264,689,841 0 1 92 0 3 158,802,798 349,366,155 49 0
http://shop.elisabettafranchi.com/it/abiti/product-stdview/?idContent=9 0 0 0 0 0 0 3,365,903,174 0 1 89 1 2 238,204,197 524,049,233 2 0
http://www.twinset.com/ita/category/pe15/twin-set/most-loved 0 0 0 0 0 0 3,365,903,174 0 1 89 1 2 238,204,197 524,049,233 0 0
http://shop.stefanel.com/fr_en/shop/abito-lungo-a-righe.html 0 3 0 3 0 0 480 0 0   0 442,269 1,077 2,369 0 0
http://www.pronovias.it/abiti-cerimonia/lasira 0 0 0 0 0 0 2 2 0   0 0 0 0 0 0
http://www.zara.com/it/it/donna/trends/boho/vestito-lungo-stampato-c763516p2776286.html 4 7 0 11 1 0 480 0 0   0 442,269 1,077 2,369 0 0
http://store.robertocavalli.com/it/justcavalli/donna/vestiti 0 0 0 0 0 0 800 11 0   0 0 0 0 30 0
http://www.youtube.com/watch?v=prlMBBiwbU4 10 6 0 16 1 0 2,313,717,278 2 1 94 1 1 476,408,394 1,048,098,466 66 0
http://www.youtube.com/watch?v=opzzadsCWng 0 0 0 0 0 0 6,676,773 5 1 92 0 2,376 200,508 441,117 0 0
http://www.husk.com.au/dresses/nicolas-mark-abito-lungo-dress 0 0 0 0 0 0 325,238,779 0 0 92 1 14 34,029,171 74,864,176 0 0
http://it.shein.com/women-dresses-c-1727.html 0 0 0 0 0 0 325,238,779 0 0 92 1 14 34,029,171 74,864,176 0 0
http://www.choies.com/product/choies-limited-edition-stripe-high-waist-maxi-skirt_p26065 0 0 0 0 0 0 4,155 0 0   0 16,499,290 28 61 0 0
https://www.pinterest.com/weddinglaperla/abito-lungo-semplice/ 0 0 0 0 0 0 325,238,779 0 1 93 1 14 34,029,171 74,864,176 0 0
http://it.aliexpress.com/popular/long-wool-dress.html 0 3 0 3 4 0 3,809 0 1   0 3,682,436 129 283 0 0
http://www.pullandbear.com/it/it/donna/vestiti-c29016.html 0 0 0 0 0 0 49,028 0 1 88 0 1,803,354 264 580 1 0
http://www.vogue.it/encyclo/cinema/l/lungo-di-giorno 0 0 0 0 1 0 2 1 0   0 0 0 0 0 0
http://www.oxforddictionaries.com/us/translate/italian-english/abito 0 0 0 0 0 0 515 0 0 60 1 1,281,913 371 816 0  

3 - Analisi delle correlazioni tra keyword e posizionamento


A questo punto possaimo mettere in relazione l'andamento di ogni parametro con la posizione dell'url nei risultati della SERP.

La relazione tra il parametro considerato ed il posizionamento può essere definita dall'indice di correlazione di Pearson, valore che +1 quando c'è correlazione tra l'andamento del parametro e quello del posizionamento, vale 0 quando non c'è correlazione, -1 quando la correlazione è inversa.
Per poter ottenere dei valori utili il valore di posizionamento viene trasformato dal risultato diretto dei motori di ricerca, dove 1 è il risultato in prima posizione e 100 quello in centesima, in un indice di posizionamento che risulta massimo quando il risultato è al primo posto (es 100) e minimo quand'è in ultima posizione (es.1 su 100 risultati).

Nei grafici è definito come 'position SERP' il primo dei valori e 'position' il secondo.
Vediamo, ad esempio, una correlazione positiva di valore 0.28; si riferisce al parametro della media delle pagine viste e dei visitatori quotidiani per la keyword 'agricoltura biologica':


Sull'asse delle ascisse sono riportati i valori di 'position', quindi è un valore che aumenta da 0 a 100, dove 0 corrisponde all'ultimo dei siti indicizzati e 100 quello del sito in prima posizione; andando da sinistra verso destra, quindi, migliora il posizionamento del sito/pagina considerati,
Si può vedere che c'è correlazione positiva perchè i siti che sono verso le prime posizioni hanno i parametri considerati via via sempre più grandi.
Allo stesso modo possiamo vedere, per la stessa keyword, la correlazione con i segnali facebook:
In questo caso la correlazione è positiva e vale 0.211 (Likes + Shares + Comments).

Ordinando i parametri a seconda del loro indice di correlazione otteniamo quelli più positivamente correlati al loro posizionamento; ad esempio per la keyword 'abito lungo' la scala è la seguente:


In questo caso la correlazione positiva più alta rispetto al posizionamento è quella data dal valore su  WebOfTrust (directory indicizzata con valori dati ai siti dagli utenti), seguito dalla presenza della keyword nel'H1 e quindi dal fatto di essere presenti su dMoz (altra directory indicizzata).
Il fatto che esista questa correlazione positiva non vuol dire obbligatoriamente che inserendo il sito nelle directory indicizzate citate e la keyword in H1 automaticamente il sito vada nelle prime posizioni, semplicemente si registra che i siti che lo hanno fatto sono arrivati in cima alla SERP. Correlation is non causality: per una migliore spiegazione è utile leggere l'articolo.
Cercando di raggruppare in una scala le tipologie di fattori di ranking possiamo dire che, per la keyword 'abito lungo', l'ordine di importanza dei fattori da considerare potrebbe sommariamente essere questo:
  1. backlinks / valutazioni
  2. contenuti
  3. social network
In seguito compareremo gli stessi parametri utilizzando diverse keyword, in questo modo potremo raggiungere lo scopo di questa ricerca, cioè verificare se i parametri di ranking sono sensibili al tipo di keyword oppure no.

Possiamo dividere nelle tre zone i risultati:


Prima di proseguire possiamo curiosare tra i dati ed estendere la ricerca correlando un parametro con qualsiasi altro parametro, ottenedo così una matrice di correlazione; invece di indicare i valori numerici utilizziamo una scala di colori, facendo corrispondere il -1 al blu scuro ed il +1 al giallo:


Da questa 'heatmap' possiamo ricavare alcune considerazioni:
  1. gli ultimi due valori, position SERP e position, sono inversamente correlati; quando uno è al massimo l'altro è al minimo, com'è logico che sia per un parametro che in un caso vale 1 per il primo e 100 per l'ultimo sito posizionato e viceversa per l'altro;
  2. c'è una diagonale gialla, in quando è logico che ogni parametro sia positivamente correlato al massimo grado con sè stesso;
  3. si vede un rettangolo giallo di 6x6 in alto a sinistra; esprime la correlazione tra facebook, G+ e Twitter; all'aumentare di uno aumenta anche l'altro; come si vede Linkedin è, in questo caso 'fuori dal coro', così come pinterest
  4. il valore imgSrcKey presenta una riga vuota, significa che non ci sono valori utili per questo parametro (keyword nel nome del file delle immagini).
  5. tutti i valori che contengono 'Key' sembrano in qualche modo correlati tra loro, segno che quando viene messa l'attenzione sull'uso delle keyword lo si fa in tutti gli ambiti dove è possibile applicarlo.

4 - comparazione delle correlazioni


A questo punto abbiamo i dati necessari per raggiungere lo scopo del documento: confrontare le correlazioni dei paramentri con il posizionamento in ambiti semantici diversi.
Per questo utilizziamo le keyword prima definite; per ognuna di esse eseguiamo le analisi descritte e sistemiamo tutto su un foglio di calcolo per visualizzare i risultati della ricerca, raggruppando i tre settori principali.

Calcoliamo la media per ognuno dei fattori principali e per ogni keyword, riportandole nella tabella dove, finalmente, possiamo visualizzare i risultati.
In questa prima tabella correliamo i risultati dell asezione 'social signals' dei parametri.
Guardando i colori possiamo già effettuare alcune analisi; per esempio la grande macchia blu nel settore news (situazione siria) porterebbe a concludere che gli shares di facebook, twitter e pinterest non sono in correlazione positiva con le news, mentre il contrario si può dire per la scienza e lo sport (agricoltura biologica e US open 2015), dove il peso dei social signals sembra essere molto più accentuato (tutti colori chiari; sullo sport, tutti in correlazione positiva).
L'ultima riga, che riporta le medie verticali, ci porta a concludere che l'importanza dei social signals sia, a decrescere, per:
  1. US open 2015 (sport)
  2. Agricoltura biologica (scienza)
  3. situazione Siria (news)
  4. Abito lungo (ecommerce)
  5. Sviluppo App (software)
Mentre dalle medie orizzontali (ultima colonna) possiamo desumere che per queste 5 keyword la migliore correlazione con il posizionamento sia data da Facebook, la minore da Linkedin.

A questo punto possiamo aprire l'analisi agli altri fattori di ranking: la situazione cambia per quanto riguarda i segnali da backlinks e dal contenuto, in questo modo:
per quanto riguarda i backlinks:
  • sembrano avere la mssima importanza nel settore scienza e sport, minima in software e ecommerce
  • il fattore in maggiore correlazione positiva è la valutazione di WebOfTrust
per quanto riguarda il contenuto:
  • la maggiore correlazione è nel settore scienza; la minore nell enews
  • il fattore in maggiore correlazione positiva con le 5 keyword è la presenza della keyword nel campo H1
ecco il dettaglio dei risultati, completo della tabella riepilogativa:


Si può notare subito che i tre tipi di fattori cambiano notevolmente passando da un ambito di ricerca all'altro.
Guardando solo la media, riportata a destra in verde, sembrerebbe che i backlinks abbiano importanza fondamentale, appena sotto ci sarebbe la scrittura dei contenuti ed avrebbero un'importanza molto minore, quasi nulla, i social signals presi per le 5 keyword come media, mentre nei singoli settori possono avere anche alta importanza (sport).
Allo stesso modo la redazione dei contenuti sembra avere più importanza in alcuni settori (scienza) e minore in altri (news).

Conclusioni


I fattori di ranking cambiano a seconda delle keyword considerate; nei 5 esempi considerati la variazione risulta palese.
Pur considerando che la correlazione non sia una causalità, nel promuovere un sito o pagina per una determinata keyword può essere utile premettere un'analisi come quella corrente per indirizzare le risorse a disposizione ottimizzandone l'efficacia.

Questo studio andrebbe naturalmente ampliato considerando più keyword significative per ogni settore e d ampliando il numero di settori considerati; sarebbe utile anche trovare un legame tra i diversi settori che definisca un continuum tra loro in modo da trovare possibili leggi di variazione tra i fattori di ranking ed i settori; questo studio va molto al di là delle competenze di chi scrive, potrebbe essere affrontato in futuro con opportuni sostegni.

Riferimenti


http://blog.searchmetrics.com/us/2015/09/11/ranking-factors-infographic-correlation-vs-causality/,  un buon articolo per capire il significato delle correlazioni in ambito SEO.
Knime, piattaforma di business intelligence con cui sono state effettuate alcune delle analisi.

Iscriviti alla newsletter