Computer finestre Internet

La descrizione più semplice del principio di funzionamento del motore di ricerca Yandex. Motori di ricerca su Internet: Yandex, Google, Rambler, Yahoo. Composizione, funzioni, principio di funzionamento Modelli matematici di ricerca

Yandex, oggi, è il motore di ricerca più popolare in Russia. Statistiche del servizio LiveInternet, mostra la quota di Yandex nella massa del pubblico tutto russo - è del 53,4%, se prendiamo in considerazione solo Mosca e la regione, allora è ancora più alta - 67,9% (Mosca, secondo le richieste, occupa più di il 50% di tutta la Russia).

Il sito web www.yandex.ru è stato creato nel 1997; gli bastava un solo server, che si trovava sotto il desktop di uno dei primi sviluppatori Yandex, Dmitry, il cui cognome era Teiblyum. Molto rapidamente dopo l'apertura, abbiamo acquistato un secondo server e presto, quando è stato necessario installarne un altro, è diventato chiaro che sotto il tavolo c'era abbastanza spazio per tre server Yandex o […]

Gli sviluppatori dei motori di ricerca si impegnano a fornire agli utenti le migliori risposte alle loro domande. A volte una risposta del genere può essere un numero (ad esempio il tempo in una città), un'immagine (ad esempio un indirizzo su una mappa), la traduzione di una parola o una quartina. Quando si dispone di una serie adeguata di informazioni, la risposta può essere data immediatamente. Pertanto, Yandex integra i risultati della ricerca su Internet con le risposte del suo […]

Circa una richiesta su dieci a Yandex è “di navigazione”, ovvero consiste nel nome di un'organizzazione o di un sito Web e l'utente desidera visitare il sito Web di questa organizzazione. In questo caso, al posto della barra degli indirizzi del browser viene utilizzata la barra di ricerca Yandex e l'utente, di regola, non è interessato ai restanti nove risultati di ricerca. Senza distrarre l'utente dall'obiettivo principale, abbiamo aggiunto dopo l'obiettivo principale […]

Il compito principale di un motore di ricerca è rispondere alla domanda dell'utente. Quando un utente pone una query, il motore di ricerca non accede a tutti i siti su Internet, ma cerca in un database di pagine a lui note: l'indice di ricerca. Lì trova tutte le pagine con le parole della query. L'utente vede i collegamenti a queste pagine nelle pagine dei risultati di ricerca.

Come vediamo, Yandex non si ferma e sono sicuro che le tecnologie di ricerca di questo sistema continueranno a svilupparsi per migliorare la qualità della ricerca, che difficilmente può ancora essere definita ideale.

Il 10 novembre 2009, Yandex ha annunciato una nuova versione dell'algoritmo di ricerca: Snezhinsk. Si sono verificati cambiamenti fondamentali nell'algoritmo per il calcolo della rilevanza - I rappresentanti di Yandex hanno scritto quanto segue: “Siamo riusciti a creare un modello matematico più accurato e molto più complesso, che ha portato a un aumento significativo della qualità della ricerca. Grazie alla riprogettazione dell'architettura del ranking di ricerca, è stato possibile implementare la contabilizzazione di diverse migliaia [...]

Il test della nuova versione dell'algoritmo Yandex è iniziato il 9 luglio 2008. Secondo Yandex, “i principali cambiamenti nel programma sono legati a un nuovo approccio all’apprendimento automatico e, di conseguenza, alle differenze nel modo in cui i fattori di ranking vengono presi in considerazione nella formula”.

Il 14 aprile 2008, il nuovo algoritmo di ricerca "Magadan" ha iniziato a essere testato all'indirizzo buki.yandex.ru. Oltre a raddoppiare il numero dei fattori di ranking, sono state introdotte anche le seguenti innovazioni:

Prima di avventurarci nella giungla algoritmica, ricordiamo come funziona in generale un motore di ricerca. La struttura logica di un sistema di ricerca può essere rappresentata sotto forma di tre moduli (vedi diagramma) Robot (crawler) è un programma speciale che esegue la scansione dei siti Internet e ne scarica il contenuto. Il robot ha un programma speciale in base al quale esegue i suoi giri. Le pagine del sito caricate da un robot, uno speciale [...]

66. Cosa ha più influenza: un collegamento da una piattaforma gratuita (blogspot, LJ, ecc.) o da un sito/blog offline? Le piattaforme gratuite trasferiscono meno peso rispetto ai siti autonomi. Tuttavia, l’impatto potrebbe essere maggiore. Ciò è dovuto a molti fattori: l'attuale elenco di ancoraggi, lo stato dei siti confrontati, ecc. È impossibile dare una risposta univoca a questa domanda. 67. Il peso maggiore viene trasferito tra […]

Vamana Tour: viaggi, biglietti aerei e visti in tutto il mondo e in India, Nepal, Sri Lanka, Maldive, Mauritius e molti altri luoghi del pianeta. Consigli per viaggiatori e pellegrini. Come ottenere il massimo dal tuo viaggio. Incredibili cronache storiche e storie di viaggiatori esperti.

A cosa serve prendere in considerazione i link esterni a un sito Come puoi vedere dalla sezione precedente, quasi tutti i fattori che influenzano il posizionamento sono sotto il controllo dell'autore della pagina. Pertanto, diventa impossibile per un motore di ricerca distinguere un documento veramente di alta qualità da una pagina creata appositamente per una determinata frase di ricerca o anche da una pagina generata da un robot che non contiene alcuna informazione utile. […]

Ciao cari amici! In questo articolo continueremo a considerare il motore di ricerca Yandex e, come ricorderete, negli articoli precedenti abbiamo discusso la storia della creazione di questa grande azienda, che è al primo posto tra i suoi concorrenti in Russia e oltre.

Tutto questo va bene, ma i principianti e i costruttori di siti esperti sono interessati alla domanda più importante, ovviamente, relativa a come portare i loro progetti ai primi posti nei risultati di ricerca TOP.

Pertanto, diamo un'occhiata a come funziona il motore di ricerca Yandex per capire quali errori puoi commettere e cosa aspettarci da un motore di ricerca russo in generale.

Nell'ultimo articolo abbiamo discusso. L'argomento si è rivelato piuttosto interessante e utile. Pertanto, ho deciso di integrarlo, approfondirlo, per così dire.

Quindi, probabilmente mi sono lasciato trasportare dalla domanda “Perché un motore di ricerca indicizza i documenti”? Non resta che risolvere la questione del “come”.

Algoritmi di ranking dei siti web

Innanzitutto, conosciamo alcuni algoritmi fondamentali per qualsiasi motore di ricerca:

— Algoritmo di ricerca diretta.

Di cosa si tratta? Ricordi di aver letto una storia meravigliosa in uno dei libri. E inizi a cercarli uno per uno. Hanno preso un libro, lo hanno sfogliato, non lo hanno trovato, ne hanno preso un altro... Il principio è chiaro, ma questo metodo è estremamente lungo. Anche questo è comprensibile.

— Algoritmo di ricerca inversa.

Per questo algoritmo, viene creato un file di testo da ogni pagina del tuo blog. Questo file elenca in ordine alfabetico TUTTE le parole che hai usato. Viene indicata anche la posizione di questa parola nel testo (coordinate nel testo).

Questo è un metodo abbastanza veloce, ma la ricerca avviene già con qualche errore.

La cosa principale da capire qui è che questo algoritmo non effettua ricerche su Internet, né effettuando ricerche su un blog. E in un file di testo separato creato molto tempo fa. Quando il robot è venuto da te. E questi file (indici inversi) sono archiviati sui server Yandex.

Quindi, questi erano gli algoritmi di ricerca di base. Quelli. come Yandex trova semplicemente i documenti necessari. Non dovrebbero esserci problemi con questo.

Ma Yandex conosce più di uno o addirittura 100 documenti, ma secondo gli ultimi dati provenienti dalle mie fonti, Yandex conosce circa 11 miliardi di documenti (10.727.736.489 pagine).

E tra tutta questa quantità, devi selezionare i documenti che corrispondono alla richiesta. E, cosa più importante, devi in ​​qualche modo classificarli. Quelli. disporle secondo il grado di importanza, o meglio secondo il grado di utilità per il lettore.

Modelli di ricerca matematica

Per risolvere questo problema, i modelli matematici vengono in soccorso. Ora parleremo dei modelli più semplici.

Modello matematico booleano– Se in un documento compare una parola, il documento si considera trovato. Solo una coincidenza e niente di complicato.

Ma qui ci sono problemi. Ad esempio, se tu, come utente, inserisci una parola popolare, o meglio ancora, la preposizione “v”, che è la parola più comune nella lingua russa e si trova in OGNI documento, ti verranno forniti così tanti risultati che non ti rendi nemmeno conto di un numero del genere, quanti documenti hai trovato? Pertanto, è apparso il seguente modello di tappetino.

Modello matematico vettoriale– questo modello determina il “peso” del documento. Non solo avviene la coincidenza, ma la parola deve ricorrere più volte. Inoltre, più una parola appare, maggiore è la sua rilevanza (conformità).

È il modello vettoriale utilizzato da TUTTI i motori di ricerca.

Modello probabilistico- più complesso. Il principio è questo: il motore di ricerca ha trovato da solo il modello di pagina. Ad esempio, stai cercando informazioni sulla storia di Yandex. Yandex memorizza una sorta di standard, diciamo che questo sarà il mio precedente articolo su Yandex.

E confronterà tutti gli altri documenti con questo articolo. E la logica qui è questa: più la tua pagina del blog è simile al mio articolo, PIÙ PROBABILE è il fatto che la pagina del tuo blog sarà utile anche al lettore e racconterà anche la storia di Yandex.

Per ridurre il numero di documenti da mostrare all'utente è stato introdotto il concetto di pertinenza, ovvero conformità.

Quanto è pertinente la pagina del tuo blog rispetto all'argomento? Questo è un argomento importante quando si tratta di qualità della ricerca.

Valutatori: chi sono e di cosa sono responsabili?

Questa rilevanza è necessaria anche per valutare la qualità degli algoritmi.

A questo scopo esiste un quartier generale delle forze speciali: si chiamano Assessori. Queste sono persone speciali che guardano i risultati di ricerca con le mani.

Hanno istruzioni su come controllare i siti, come valutare, ecc. E determinano manualmente se le tue pagine sono adatte o meno alle query di ricerca.

E la qualità degli algoritmi di ricerca dipende dall'opinione dei valutatori. Se tutti i valutatori dicono che i risultati della ricerca non corrispondono alle richieste, significa che l'algoritmo di classificazione non è corretto e Yandex è l'unico responsabile.

Se i valutatori dicono che un solo sito non soddisfa la richiesta, significa che il sito vola da qualche parte lontano e viene abbassato nei risultati di ricerca. Più precisamente, non l'intero sito, ma solo un articolo, ma “non è questo il punto”.

Naturalmente, i valutatori non possono rivedere e valutare TUTTI gli articoli con le mani e con gli occhi. Questo è comprensibile.

E altri parametri in base ai quali vengono classificate le pagine vengono in soccorso.

Ce ne sono molti, ad esempio:

  • peso della pagina (vIC, PageRank, pancioni Nel complesso);
  • autorità di dominio;
  • pertinenza del testo alla richiesta;
  • pertinenza dei testi dei link esterni alla query;
  • così come molti altri fattori di classificazione.

I valutatori commentano e le persone responsabili dell'impostazione del modello matematico di classificazione modificano a loro volta la formula, grazie alla quale il motore di ricerca funziona in modo più efficiente.

I criteri principali per valutare la performance della formula:

1. Precisione dei risultati dei motori di ricerca- percentuale di documenti che corrispondono alla richiesta (rilevante). Quelli. Meno pagine non corrispondono alla richiesta, meglio è.

2. Completezza dei risultati dei motori di ricerca- questo è il rapporto tra le pagine web rilevanti per una determinata query e il numero totale di documenti rilevanti nella raccolta (la totalità delle pagine trovate nel motore di ricerca).

Ad esempio, se nell'intera raccolta sono presenti più pagine pertinenti che nei risultati della ricerca, ciò significa che i risultati sono incompleti. Ciò è accaduto perché alcune delle pagine Web pertinenti sono state filtrate.

3. Pertinenza dei risultati dei motori di ricerca- si tratta della conformità della pagina web con quanto scritto nello snippet. Ad esempio, un documento potrebbe essere molto diverso o non esistere affatto, ma essere comunque presente nei risultati della ricerca.

La pertinenza dei risultati della ricerca dipende direttamente dalla frequenza con cui il robot di ricerca scansiona i documenti della sua raccolta.

La raccolta delle raccolte (indicizzazione delle pagine del sito) viene eseguita da un programma speciale: un robot di ricerca.

Il robot di ricerca riceve un elenco di indirizzi da indicizzare, li copia e quindi invia il contenuto delle pagine Web copiate per l'elaborazione a un algoritmo che le converte in indici inversi.

Bene, "in poche parole", per così dire, abbiamo discusso i principi del motore di ricerca.

Riassumiamo:

  1. Un robot di ricerca arriva sul tuo blog.
  2. Il robot di ricerca memorizza l'indice inverso della pagina per le ricerche successive.
  3. Utilizzando un modello matematico, il documento viene elaborato e visualizzato nei risultati di ricerca utilizzando formule e tenendo conto del parere del valutatore.

Questo è molto, molto semplificato. Giusto per avere una conoscenza di base di come funziona il motore di ricerca Yandex.

Ora ho scritto così tanto testo, e forse molto non è chiaro. Pertanto, ti suggerisco di tornare su questo articolo un po' più tardi e guardare questo video.

Questa è un'ottima guida, dalla quale ho anche imparato una volta.

Spero che queste informazioni ti aiutino a capire meglio perché uno dei tuoi siti occupa posizioni adeguate nelle ricerche e a fare di tutto per migliorarle.

Con questo ti saluto, se hai qualche domanda sono sempre felice di risponderti nei commenti. O forse vuoi aggiungere qualcosa all'articolo?

In ogni caso esprimi la tua opinione. !

Oggi partiamo per un altro lungo viaggio lungo i percorsi elaborati dello sviluppo dei motori di ricerca ( Yandex, Yandex). Penso che il gigante domestico della ricerca online sia cresciuto da tempo a un livello tale che non è troppo pigro per scavare in tutti i suoi angoli, ricordare come si è sviluppato il motore di ricerca Yandex e cosa è stato interessante durante tutti gli anni della sua esistenza.

Inoltre, riceve molti visitatori dal motore di ricerca Yandex. Molti di loro se ne vanno tramite pubblicità contestuale, recentemente ho rilevato il blog, quindi penso che questa azienda sia più che degna di una grande pubblicazione a riguardo.

Se prendiamo in considerazione l'Internet russa, Yandex è il leader indiscusso. In Russia è il primo motore di ricerca più importante. Esistono motori di ricerca regionali, una sorta di filiali in Bielorussia, Ucraina e Kazakistan. Yandex è molto popolare tra i residenti di questi paesi. Lo posso giudicare almeno dalle statistiche, visto che molti visitatori provengono da altre regioni.

Attualmente Yandex non è solo un motore di ricerca, ma è anche numerosi servizi a cui possono accedere assolutamente tutti gli utenti di questo motore di ricerca. Qui puoi trovare le informazioni di cui hai bisogno e navigare nella tua scelta di attività ricreative, trovare immagini, prodotti, confrontare prezzi, controllare il tempo, comunicare su un social network, guardare la TV e gli orari dei trasporti. Esistono numerose soluzioni aziendali. Puoi anche andare su Narod.ru. Yandex ha un comodo sistema che fornisce funzionalità per lavorare con i tuoi siti web. Tra le ultime novità disponibili c'è il servizio che è rimasto a pagamento per molto tempo, ma nel dicembre 2011 questo servizio è diventato disponibile per tutti.

Potrei continuare a parlare delle meravigliose tecnologie e dei servizi utili di Yandex per molto, molto tempo. Pertanto, per facilitare la percezione delle informazioni, suddividerò il nostro viaggio in componenti. Descriverò l'intero percorso del motore di ricerca in ordine cronologico per anno, dalla creazione ai giorni nostri.

Storia dello sviluppo di Yandex

Anni '80 -'90

Storia dello sviluppo di Yandex affonda le sue radici negli ormai lontani anni '80, durante il periodo dell'URSS. Fu allora che presso Arcadia iniziò per la prima volta lo sviluppo del software di ricerca. Il lavoro è stato svolto sotto la guida di Arkady Borkovsky e Arkady Volozh. Questo è il primo tecnologia di ricerca ha ricevuto il nome "Yandex". E il sito stesso Yandex, quello che possiamo vedere oggi, è apparso nel 1996. Gli sviluppi realizzati in quel periodo furono riconosciuti come promettenti, a seguito dei quali la direzione di CompTek (vendita di computer e componenti) e gli sviluppatori di sistema decisero sull'opportunità di un ulteriore sviluppo della tecnologia e della sua introduzione alle masse . A questo proposito è stato preparato un concetto di sviluppo del progetto, rivolto a un vasto pubblico.

Yandex è stato annunciato ufficialmente solo il 23 settembre 1997. E infatti all'inizio era una delle divisioni di CompTek International. Cioè, non c'era affatto indipendenza lì. E solo nel 2000 Yandex è diventata l'azienda che possiamo vedere oggi. Nel senso che l'azienda è già diventata completamente indipendente. Yandex indipendente.

A proposito, molto prima dell'annuncio del motore di ricerca Yandex, l'azienda ha inventato un nome. Yandex – significa “Indice della lingua”. Se tradotto dall'inglese, risulta “Yet Another Indexer”. È vero, quindi, con lo sviluppo del motore di ricerca, hanno cominciato ad apparire altre interpretazioni. Ad esempio, se nell'indice inglese traduci la prima lettera (I – Z) dall'inglese al russo, otterrai “Yandex”.

Il nome "Yandex" è stato inventato da Ilya Segalovich (attuale direttore della tecnologia) e Arkady Volozh

Un anno prima del rilascio ufficiale dell'azienda, il 18 ottobre 1996, si tenne la mostra Netcom'96, alla quale CompTek presentò i primi prodotti del motore di ricerca in via di sviluppo. Questi erano Yandex.Site e Yandex.Dict. Poi, sei mesi dopo, è apparso Yandex.CD, alla ricerca di documenti su CD ROM, e quindi è iniziato il progetto Yandex.Lib. Si trattava di una libreria di pacchetti Yandex, destinata a essere incorporata in tutti i tipi di applicazioni e database.

Nel momento in cui Yandex.ru è stato presentato ufficialmente al pubblico, si poteva evidenziare quanto segue:

    Valutazione della pertinenza dei documenti. A quel tempo, Yandex era abbastanza bravo a trovare copie ed escluderle. Allo stesso tempo, i documenti sono stati cercati in varie codifiche

    Cerca per forma esatta della parola. Yashka sapeva come cercare tenendo conto della morfologia

    Ricerca in base alla distanza. Yandex potrebbe effettuare ricerche all'interno di un paragrafo utilizzando frasi esatte

    Il nucleo per valutare la pertinenza delle pagine funzionava. Per ciascuna richiesta, i documenti sono stati selezionati tenendo conto della conformità (pertinenza) alla richiesta. Inoltre, quando si selezionavano i documenti per i risultati di ricerca, veniva presa in considerazione la frequenza (densità) della parola chiave sulla pagina. Tra l'altro, proprio a causa dell'imperfezione (all'epoca) di questo algoritmo, pagine fitte di parole chiave, praticamente prive di significato, apparivano nei primi risultati di ricerca.

    Inoltre, durante la ricerca, è stata presa in considerazione la distanza tra le parole e la posizione delle parole nel documento

Progettazione del sito web Yandex

Il primissimo design del sito Yandex era piuttosto primitivo e imperfetto. È stato sviluppato dal noto Artemy Lebedev. Sembrava così

A proposito, il forum Yandex è stato aperto nello stesso anno. Destinato alla comunicazione tra utenti del sistema e sviluppatori. L'idea era buona e il forum funzionava normalmente. È vero, esisteva fino al 2008. Poi c’è stato un leggero rimpasto delle priorità. Per quanto ne so, la preferenza è stata data alla socializzazione. Yandex ha anche iniziato a sviluppare attivamente il proprio social network, sulla base del quale è apparso l'attuale blog, dove vengono pubblicati tutti gli annunci Yandex e dove, di fatto, gli utenti comunicano con gli sviluppatori. Puoi vedere tu stesso il vecchio URL del forum ( http://forum.yandex.ru/yandex/) oggi un reindirizzamento è noto a tutti http://webmaster.ya.ru/.

1998

Il progetto, che è stato lanciato, ha mostrato un buon potenziale e hanno continuato a lavorarci. Nel 1998 il motore di ricerca è stato migliorato e sono state introdotte molte altre funzionalità per gli utenti. In particolare è diventato possibile effettuare ricerche tra quanto trovato, cercare documenti simili e molto altro ancora. Sono in corso anche i lavori per la progettazione della home page di Yandex. Adesso è un po' cambiata

Come puoi vedere, esteriormente non è cambiato molto. La maggior parte del lavoro tecnico è stato svolto

1999

Nel corso dell'anno, il pubblico della quota russa di Internet è cresciuto in modo significativo. Allo stesso tempo, la qualità e la tecnologia di Yandex sono cresciute e gli sviluppatori hanno introdotto numerosi miglioramenti. Il motore di ricerca Yandex ha introdotto un nuovo bot di ricerca, che ha aumentato significativamente la velocità di scansione dei documenti sulla rete.

Le innovazioni che hanno interessato le parti utente della funzionalità sono state le seguenti:

    Ora è possibile effettuare ricerche in modo più specifico: per annotazioni, didascalie, immagini, titoli

    Abbiamo introdotto una restrizione di ricerca su un gruppo di siti

    I documenti in russo sono stati evidenziati separatamente

A proposito, è stato nel 1999 che è stato introdotto per la prima volta il concetto ormai noto (indice delle citazioni tematiche). È vero, quindi è stato calcolato in modo abbastanza primitivo. L'autorità del sito (aka TIC) dipendeva in larga misura dal numero di siti che si collegavano al dominio di nostro interesse.

A proposito, anche il design della pagina principale è cambiato. Ora è diventato qualcosa di più simile a quello attuale

Nel 1999 si verificò un altro evento significativo. Fu allora che apparve un costruttore di siti Web gratuito, meglio noto a tutti noi come Narod.ru (servizio di hosting e condivisione di file gratuito). A proposito, questo progetto esiste ancora. Il motto di questo progetto era: in 60 secondi.

anno 2000

Forse è stata l'introduzione di nuovi servizi che ha permesso a Yandex di raggiungere un livello di sviluppo fondamentalmente nuovo. Nel corso del tempo, il motore di ricerca ha consolidato saldamente il suo status, il che ha permesso di farlo in modo significativo In realtà, si trattava di un progetto nuovo, non di quello iniziato sotto gli auspici di CompTek.

Nel 1999, Arkady Volozh, realizzando le prospettive per lo sviluppo del progetto, iniziò a concentrarsi solo sulla promozione di Yandex. Ma la difficoltà era che era necessario trovare partner esperti con competenze edili aziendali. L'unica difficoltà era che era necessario trovare partner che investessero nello sviluppo del progetto, ma non richiedessero un trasferimento completo della gestione sotto la loro guida.

E un tale partner è stato trovato. Era un'azienda ru-Net Holdings. Nella primavera del 2000 è stato concluso un accordo di investimento con questa società. Qui però ci furono alcune vittime. Tuttavia, ho dovuto rinunciare a una certa quota del motore di ricerca. Secondo l'accordo, l'azienda ha ricevuto 1/3 del motore di ricerca. Cioè, da quel momento in poi, Yandex cessò di essere una divisione strutturale di CompTek, ma divenne una società indipendente con propri uffici, propria gestione, proprio budget, ecc. Arkady Volozh è diventato il direttore generale dell'azienda.

Penso che Yandex sia stato molto fortunato con il suo primo leader, perché Volozh si è rivelato non solo uno specialista nella ricerca di potenziali partner, ma anche un buon innovatore. Dopo l'inizio del "nuoto" indipendente, nell'azienda sono iniziati enormi cambiamenti. Il personale è stato notevolmente reintegrato e la risorsa stessa ha ricevuto un nuovo impulso dai suoi leader.

In totale, ru-Net Holdings ha investito circa 5 milioni di dollari, cosa posso dire, l'accordo si è rivelato molto redditizio, soprattutto considerando il fatto che oggi il motore di ricerca numero uno di RuNet costerà almeno diverse centinaia di milioni di dollari. Questa è la stima più conservativa.

L'anno 2000 è stato significativo anche perché è stato in quest'anno che la multiportalità di Yandex ha cominciato ad emergere in modo più evidente, perché hanno cominciato ad apparire molti servizi che non erano direttamente legati alla ricerca. Tali servizi erano Yandex.News, Yandex.Mail, Postcards e la barra di ricerca su ya.ru. Inoltre, ci sono stati molti servizi che successivamente si sono fusi, diventando quello che oggi conosciamo come Yandex.Market. Inoltre, un'altra innovazione significativa è stata l'introduzione di un software specializzato per l'integrazione nei browser degli utenti: Yandex Bar.

anno 2001

Quest'anno è stato un punto di svolta, perché nel 2001 Yandex è diventato il leader della Runet in termini di traffico. Inoltre, è aumentata anche la quantità di informazioni archiviate sui server dell’azienda. La sua dimensione era di 1 terabyte. A proposito, quest'anno è apparso anche Yandex.Images. Inoltre, è apparso il sistema di pagamento elettronico Yandex.Money

Inoltre, il design della home page di Yandex è stato migliorato in modo ancora più significativo. Di seguito i link ai nuovi servizi e alle novità. Possiamo dire che in generale i contorni dell'attuale Yandex sono già apparsi

2002

Quest'anno gli sviluppatori hanno lavorato attivamente per migliorare il servizio di comunicazione: Yandex.Mail. È stato fatto molto lavoro per filtrare la corrispondenza. Il 2002 è stato l'anno della fusione di tre servizi: Products, Guru e Select in uno solo: Yandex.Market. A proposito, puoi vedere tu stesso che questo servizio è molto rilevante anche oggi. Forse per la prima volta in tutti gli anni di investimenti, nel 2002 è apparso un obiettivo: raggiungere l'autosufficienza. Era necessario sviluppare un sistema strategico per monetizzare il progetto. Inoltre, uno che porterebbe profitti stabili e grandi in futuro. È diventato un modello del genere, ed è stato proprio il reddito che l'azienda ha iniziato a ricevere da questo modello pubblicitario che ha permesso di raggiungere l'autosufficienza molto prima del previsto. Possiamo quindi dire che il 2002 è stato un punto di svolta in termini di ingresso in un modello orientato al business, che, peraltro, ha già iniziato a dare i suoi frutti.

2003

Quest'anno è continuato il lavoro attivo sul servizio Yandex.Mail. Qui furono introdotti i successivi enormi cambiamenti, che interessarono tutti gli utenti del sistema. Naturalmente Ya.Mail è diventato più funzionale e conveniente. Guardando al futuro, voglio dire che in futuro anche il servizio si è sviluppato molto attivamente e i suoi utenti hanno visto molte nuove funzionalità interessanti più di una volta. In particolare, gli utenti hanno ricevuto dimensioni illimitate della casella di posta e un nuovo filtro antispam “Spam Defense”. Nel 2003, il design di Yandex è stato nuovamente aggiornato.

A proposito, ogni disegno corrispondeva a una versione specifica. La versione del progetto del 2003 era l'ottava di fila e assomigliava a questa

Qualsiasi rilascio di una nuova versione di progettazione passa inizialmente attraverso un periodo di beta testing. E se prima i beta test venivano effettuati in modalità chiusa, questa volta, durante due settimane di test di prova della nuova interfaccia, chiunque poteva accedere alla nuova interfaccia. È vero, un anno dopo quello principale è stato nuovamente aggiornato, ma con maggiore successo. Ed esisteva in questa forma fino al 2007.

Già a quel tempo Yandex era già un'azienda abbastanza rispettabile, perché già nel 2003 il motore di ricerca Yandex era stato implementato con successo nel sito web presidenziale. Nell'autunno del 2003, gli sviluppatori hanno lanciato i successivi aggiornamenti del prodotto: Yandex.Publisher, Yandex.Server (Yandex.Server), che è diventato l'eredità di Yandex.Site.

2004

Il modello di business del motore di ricerca numero uno di RuNet ha funzionato molto bene, per cui i profitti ottenuti dall'azienda nel 2004 ammontavano già a decine di milioni di dollari. Ciò ha dato impulso allo sviluppo di nuovi servizi, ad esempio un servizio di ricerca su una mappa, blog e forum. L'anno 2004 è degno di nota anche per il fatto che fu allora che sul mercato russo apparve un serio concorrente nella persona di Google. C'era un'urgente necessità di entrare nella lotta per la leadership, a seguito della quale la direzione di Yandex ha deciso di decuplicare il proprio personale. Inizialmente erano 200, dopo l'aggiornamento dell'organico i dipendenti sono 2.000. Ma la cosa più importante è che dopo il rinnovo del personale nulla è cambiato in peggio. Le tradizioni sono rimaste, anche le tecnologie sono state aggiornate. E in generale, possiamo dire che Yasha non si è trasformata in una società arida.

Battaglia di tecnologie: Yandex contro Google

2005 anno

Quest'anno è trascorso all'insegna dell'espansione geografica dell'ufficio di rappresentanza della società. Perché è apparso l'ufficio di rappresentanza ucraino di Yandex: Yandex.Ukraine. A proposito, il direttore di questo ufficio di rappresentanza è Sergey Petrenko, il fondatore della famosa ricerca e autore dell'interessante blog BloGnot

L'anno 2005 è stato significativo anche perché ha aperto il mio preferito. Questo è un servizio basato sul principio del "webmaster kolotibablo" e, in russo, è un servizio che consente ai webmaster di inserire pubblicità sui loro siti.

Nello stesso anno apparve Yandex.Dictionaries. Si sono verificati cambiamenti anche nel servizio Yandex.Money. Ora tutti gli utenti hanno la possibilità di gestire il proprio account tramite un portafoglio online.

2006

Quest'anno sarà ricordato per la comparsa dell'ormai noto servizio blogs.yandex.ru. Questo è una sorta di strumento di marketing. Mi ha permesso di studiare l'opinione pubblica, le recensioni su blog e forum. Yandex.Maps ha introdotto uno strumento per visualizzare gli ingorghi.

Dal 2006 al 2010 Yandex si trovava in un vecchio ufficio in via Samokatnaya a Mosca





Come potete vedere, prima erano un po' angusti. Questo non è adesso, un enorme edificio per 2000 dipendenti.

Nel 2006 si è verificato un altro evento interessante: il primo ufficio di sviluppo remoto è stato aperto a San Pietroburgo. Allora, ovviamente, la scala non era ancora la stessa. Non è così che oggi Yandex ha 11 uffici in Russia, Ucraina, Turchia e persino in California. Gli uffici variano in base al tipo di attività. Ci sono uffici che si occupano di sviluppo, uffici commerciali, uffici che lavorano nell'area della localizzazione dei prodotti

2007

Quest'anno ci sono stati eventi più focalizzati sui webmaster. In particolare, è apparso il servizio Yandex.Photos. Ma per me, come webmaster, l'evento più interessante è l'aspetto del servizio Yandex.Metrica. È vero, a quel tempo era un servizio completamente rozzo e non era rivolto ai webmaster, ma agli inserzionisti Yandex.Direct. Nello stesso anno è stato aperto un ufficio di rappresentanza ucraino: Yandex.ua. Oggi, secondo LiveInternet, quasi il 14% del traffico in lingua russa proviene da yandex.ua

Sempre nel 2007 è stato lanciato un progetto noto a tutti i webmaster, che probabilmente non viene utilizzato solo dai più pigri

2008

Possiamo dire che quest'anno la sfera di influenza di Yandex è aumentata così tanto che si è deciso di aprire una filiale del motore di ricerca negli Stati Uniti, in California. Allo stesso tempo, sono state apportate significative aggiunte agli algoritmi. In particolare, hanno iniziato a supportare gli standard internazionali Sitemap, MediaRSS, ecc .. Cioè, come puoi vedere, le aree di interesse sono andate ben oltre RuNet. Il motore di ricerca numero uno su RuNet è ora diventato quello dei siti in lingua inglese. Prima di questo, il problema era che il motore di ricerca nazionale non supportava gli standard internazionali, e quindi c'era un problema con l'indicizzazione dei siti da burzhunet, ma dopo l'aggiornamento nel 2008, questo problema è stato risolto. E successivamente, il logo Yandex ha iniziato a essere scritto interamente in russo.

anno 2009

Quest'anno è stato significativo perché prima non esisteva la divisione della ricerca per regione. Cioè, prima dell'introduzione di questo algoritmo, era costruito sui principi di uniformità. Ad esempio, inserisci la query “” nella barra di ricerca a Mosca e Novosibirsk e otterrai gli stessi risultati. Ora tutto è cambiato. E i risultati basati sul principio della geodipendenza vengono mescolati nei risultati di ricerca. Per dirla semplicemente, se effettui una ricerca utilizzando Yandex a Mosca e Novosibirsk, i risultati saranno diversi.

Nel 2009 i lavori sono proseguiti nella direzione occidentale precedentemente scelta. In particolare è stato testato un servizio utilizzato per tradurre siti esteri. Successivamente questo servizio si è evoluto e nel 2011 è diventato noto come Yandex.Translation.

Un evento altrettanto importante è stata l'introduzione di un nuovo metodo di apprendimento automatico: Matrixnet. Questa tecnologia utilizza vari modelli come valutazione e tiene conto di vari fattori di classificazione. Ma la cosa principale è che la tecnologia è in grado di apprendere da sola. Quando si valutano i valutatori, vengono valutati solo i modelli reali e la scoperta di modelli inesistenti è completamente esclusa.

La natura rivoluzionaria di questa tecnologia sta nel fatto che Matrixnet utilizza una formula di classificazione incredibilmente complessa che tiene conto di un numero enorme di fattori. Ciò, da un lato, consente di ottenere risultati di ricerca migliori, ma dall'altro non consentirà ai webmaster di comprendere questo modello e, quindi, di influenzarlo nei propri interessi.

Maggiori dettagli sulla tecnologia Matrixnet:

2010

Il vecchio ufficio in via Samokatnaya è un ricordo del passato e l'intera azienda si è trasferita in nuovi palazzi. In effetti, questo è diventato l'evento principale del 2010





Buon pomeriggio, cari lettori del mio blog SEO. . Questo articolo riguarda come funziona il motore di ricerca Yandex quali tecnologie e algoritmi utilizza per classificare i siti e cosa fa per preparare una risposta agli utenti. Molte persone sanno che questo fiore all'occhiello della ricerca russa dà il tono a Runet, possiede il più grande database dell'Eurasia, gestisce il contenuto di oltre un miliardo di pagine e conosce la risposta a qualsiasi domanda. Secondo i dati di Liveinternet di agosto 2012, la quota di Yandex in Russia è del 60,5%. L'audience mensile del portale è di 48,9 milioni di persone. Ma la cosa più importante per noi blogger è come il motore di ricerca riceve le nostre richieste, come le elabora e quale è il risultato che ne deriva. Da un lato, conoscere e comprendere queste informazioni ci rende più facile utilizzare tutte le risorse Yandex, dall'altro è più facile promuovere i nostri blog. Pertanto, propongo di esaminare con me le tecnologie più importanti del miglior motore di ricerca Runet.

Quando un utente di Internet desidera rivolgersi per la prima volta a un motore di ricerca per ottenere informazioni, potrebbe avere una domanda: "Come funziona la ricerca?" Ma quando la riceve, questa domanda spesso si trasforma in un’altra: “Perché così in fretta?” E davvero, perché la ricerca di un file su un computer richiede 20 secondi e il risultato di una richiesta da un'intera rete di computer in tutto il mondo appare in un secondo? La cosa più interessante è che alle prime due domande (come avviene la ricerca e perché 1 secondo) è possibile rispondere in un'unica risposta: il motore di ricerca si è preparato in anticipo per la richiesta dell'utente.

Per comprendere il principio di funzionamento di Yandex, come di altri motori di ricerca, tracciamo un'analogia con un elenco telefonico. Per trovare qualsiasi numero di telefono è necessario conoscere il cognome dell'abbonato e qualsiasi ricerca in questo caso richiede al massimo un minuto, poiché tutte le pagine della directory sono un indice alfabetico continuo. Ma immagina se la ricerca fosse effettuata utilizzando un'opzione diversa, in cui i numeri di telefono fossero ordinati in base ai numeri stessi. Dopo tali ricerche, che si protrarranno per un tempo più lungo, i numeri rimarranno davanti agli occhi di chi ricerca per molto tempo. 🙂

Allo stesso modo, il motore di ricerca visualizza tutte le informazioni da Internet in una forma a lui conveniente. E, soprattutto, tutti questi dati vengono inseriti nella sua directory in anticipo, prima che il visitatore arrivi con le sue richieste. Cioè, quando facciamo una domanda a Yandex, conosce già la nostra risposta. E ce lo dà in un secondo. Ma questo secondo comprende una serie di processi importanti, che ora considereremo in dettaglio.

Indicizzazione su Internet

Yandex ru raccoglie tutte le informazioni su cui riesce a mettere le mani su Internet. Utilizzando attrezzature speciali, tutti i contenuti vengono esaminati, comprese le immagini, in base a parametri visivi. Il motore di ricerca è impegnato in tale raccolta e il processo di raccolta e preparazione dei dati è chiamato indicizzazione. La base di una macchina del genere è un sistema informatico, altrimenti chiamato robot di ricerca. Esegue regolarmente la scansione dei siti indicizzati, controlla la presenza di nuovi contenuti ed esegue anche la scansione di Internet alla ricerca di pagine cancellate. Se scopre che una di queste pagine non esiste più o è chiusa dall'indicizzazione, la rimuove dalla ricerca.

Come fa un robot di ricerca a trovare nuovi siti? Innanzitutto grazie ai collegamenti da altri siti. Perché se un collegamento viene inserito su una nuova risorsa web da un sito già indicizzato, la prossima volta che visiti il ​​secondo, il robot visiterà il primo. In secondo luogo, esiste un servizio meraviglioso, popolarmente chiamato "addurlka" (dalla frase in inglese -addurl - aggiungi indirizzo). In esso puoi inserire l'indirizzo del tuo nuovo sito, che dopo un po' verrà visitato da un robot di ricerca. In terzo luogo, con l'aiuto di un programma speciale "Yandex.Bar", vengono tracciate le visite degli utenti che lo utilizzano. Di conseguenza, se una persona arriva su una nuova risorsa web, presto apparirà un robot.

Tutte le pagine sono incluse nella ricerca? Ogni giorno vengono indicizzate milioni di pagine. Tra questi ci sono pagine di varia qualità che possono contenere informazioni diverse, da contenuti unici a completa spazzatura. Inoltre, come dicono le statistiche, c'è molta più spazzatura su Internet. Il robot di ricerca analizza ogni documento utilizzando algoritmi speciali. Determina se dispone di informazioni utili e se può rispondere alla richiesta dell'utente. In caso contrario, tali pagine non vengono accettate come "cosmonauti", ma in tal caso vengono incluse nella ricerca.

Dopo che un robot ha visitato una pagina e ne ha determinato l'utilità, questa appare nella memoria del motore di ricerca. Qui analizziamo qualsiasi documento fino alle basi, come dicono i maestri del centro auto, fino agli ingranaggi. La pagina viene ripulita dal markup html, il testo pulito viene sottoposto a un inventario completo: viene calcolata la posizione di ogni parola. In questa forma smontata, la pagina si trasforma in una tabella con numeri e lettere, altrimenti chiamata indice. Ora, qualunque cosa accada alla risorsa web che contiene questa pagina, la sua copia più recente è sempre disponibile nella ricerca. Anche se il sito non esiste più, copie dei suoi documenti vengono archiviate su Internet per qualche tempo.

Ciascun indice, insieme ai dati sui tipi di documenti, sulla codifica, sulla lingua, insieme alle copie, costituisce banca dati di ricerca . Viene aggiornato periodicamente, quindi si trova su server speciali con l'aiuto dei quali vengono elaborate le richieste degli utenti dei motori di ricerca.

Con quale frequenza avviene il processo di indicizzazione? Innanzitutto dipende dalla tipologia dei siti. Il primo tipo di risorsa web cambia molto spesso il contenuto delle sue pagine. Cioè, quando un robot di ricerca arriva ogni volta su queste pagine, contengono ogni volta contenuti diversi. La prossima volta non sarai in grado di trovare nulla utilizzandoli, quindi tali siti non sono inclusi nell'indice. La seconda tipologia di sito è un data warehouse, sulle cui pagine vengono periodicamente inseriti i collegamenti ai documenti da scaricare. Il contenuto di un sito di questo tipo di solito non cambia, quindi il robot lo visita molto raramente. Altri siti dipendono dalla frequenza di aggiornamento del materiale. Ciò significa quanto segue: più velocemente vengono visualizzati nuovi contenuti sul sito, più spesso arriva il robot di ricerca. E la priorità viene data prima alle risorse web più importanti (un sito di notizie è molto più importante di qualsiasi blog, per esempio).

L'indicizzazione consente di eseguire la prima funzione di un motore di ricerca: raccogliere informazioni su nuove pagine su Internet. Ma Yandex ha anche una seconda funzione: cercare la risposta alla richiesta dell'utente in un database di ricerca già preparato.

Yandex sta preparando una risposta

Il processo di elaborazione della richiesta e di emissione delle relative risposte è gestito da sistema informatico "Metaricerca" . Per il suo lavoro raccoglie innanzitutto tutte le informazioni di input: da quale regione è stata effettuata la richiesta, a quale classe appartiene, se ci sono errori nella richiesta, ecc. Dopo tale elaborazione, il metasearch controlla se nel database sono presenti esattamente le stesse query con gli stessi parametri. Se la risposta è sì, allora il sistema mostra all'utente i risultati precedentemente salvati. Se tale domanda non esiste nel database, la metaricerca indirizza il database di ricerca che contiene i dati dell'indice.

Ed è qui che accadono cose incredibili. Immagina che esista un computer super potente che memorizza l'intera Internet elaborata dai robot di ricerca. L'utente imposta una query e inizia una ricerca nelle celle di memoria di tutti i documenti coinvolti nella query. La risposta è stata trovata e tutti sono contenti. Ma prendiamo un altro caso in cui nel corpo sono presenti molte richieste contenenti le stesse parole. Il sistema deve passare ogni volta attraverso le stesse celle di memoria, il che può aumentare significativamente il tempo necessario per elaborare i dati. Di conseguenza, il tempo aumenta, il che può portare alla perdita dell'utente: si rivolgerà a un altro motore di ricerca per chiedere aiuto.

Per evitare tali ritardi, tutte le copie nell'indice del sito vengono distribuite su computer diversi. Dopo aver trasmesso la richiesta, il metasearch ordina a tali server di cercare il loro pezzo di testo. Dopodiché, tutti i dati di queste macchine vengono restituiti al computer centrale, che combina tutti i risultati ottenuti e fornisce all'utente le dieci migliori risposte. Con questa tecnologia si uccidono due piccioni contemporaneamente: il tempo di ricerca si riduce più volte (la risposta si ottiene in una frazione di secondo) e, grazie all'aumento delle piattaforme, le informazioni vengono duplicate (i dati non vengono persi a causa di guasti improvvisi) . I computer stessi con informazioni duplicate costituiscono un data center: questa è una stanza con server.

Quando un utente di un motore di ricerca pone una query, 20 volte su 100, gli obiettivi della domanda sono ambigui. Ad esempio, se scrive la parola "Napoleone" nella barra di ricerca, non si sa ancora quale risposta si aspetta: una ricetta per una torta o una biografia del grande comandante. O la frase "Fratelli Grimm" - fiabe, film, gruppo musicale. Per restringere una gamma così possibile di obiettivi a risposte specifiche, Yandex dispone di una tecnologia speciale Allineare. Tiene conto delle esigenze degli utenti utilizzando le statistiche delle query di ricerca. Di tutte le domande poste dai visitatori in Yandex, Spectrum identifica in esse vari oggetti (nomi di persone, titoli di libri, modelli di auto, ecc.). Questi oggetti sono distribuiti in determinate categorie. Attualmente esistono più di 60 categorie di questo tipo. Con il loro aiuto, il motore di ricerca ha nel suo database diversi significati delle parole nelle query degli utenti. È interessante notare che queste categorie vengono periodicamente controllate (l'analisi avviene un paio di volte a settimana), il che consente a Yandex di fornire risposte più accurate alle domande poste.

Basato sulla tecnologia Spectrum, i messaggi di dialogo organizzati da Yandex. Appaiono sotto la barra di ricerca in cui l'utente digita la sua query ambigua. Questa linea riflette le categorie a cui può appartenere l'oggetto della domanda. Ulteriori risultati di ricerca dipendono dalla scelta di questa categoria da parte dell’utente.

Dal 15 al 30% di tutti gli utenti del motore di ricerca Yandex desidera ricevere solo informazioni locali (dati della regione in cui vivono). Ad esempio, sui nuovi film nei cinema della tua città. Pertanto, la risposta a tale richiesta dovrebbe essere diversa per ciascuna regione. A questo proposito, Yandex utilizza la sua tecnologia ricerca in base alle regioni . Queste sono, ad esempio, le risposte che potrebbero ricevere i residenti che cercano un repertorio di film nel loro cinema Oktyabr:

Ma questo è il risultato che riceveranno i residenti della città di Stavropol per la stessa richiesta:

La regione dell'utente è determinata principalmente dal suo indirizzo IP. A volte questi dati non sono accurati, perché più provider possono lavorare in più regioni contemporaneamente e quindi modificare gli indirizzi IP dei propri utenti. In linea di principio, se questo ti accade, puoi facilmente modificare la tua regione nelle impostazioni del motore di ricerca. È elencato nell'angolo in alto a destra della pagina dei risultati. Puoi cambiarlo.

Motore di ricerca Yandex ru: risultati della risposta

Quando Metasearch ha preparato una risposta, il motore di ricerca Yandex dovrebbe visualizzarla nella pagina dei risultati. Si tratta di un elenco di collegamenti ai documenti trovati con alcune informazioni su ciascuno. Il compito della tecnologia di emissione dei risultati è fornire all'utente le risposte più pertinenti nel modo più informativo. Il modello per uno di questi collegamenti è simile al seguente:

Diamo un'occhiata a questa forma di risultato in modo più dettagliato. Per titolo del risultato della ricerca Yandex utilizza spesso il nome del titolo della pagina (cosa scrivono gli ottimizzatori nel tag del titolo). Se non è presente, qui compaiono le parole del titolo dell'articolo o del post. Se il testo del titolo è grande, il motore di ricerca inserisce in questo campo il frammento più rilevante per la query data.

Molto raramente, ma succede che il titolo non corrisponda al contenuto della richiesta. In questo caso, Yandex forma il titolo del risultato di ricerca utilizzando il testo dell'articolo o del post. Avrà sicuramente parole interrogative.

Per frammento il motore di ricerca utilizza tutto il testo della pagina. Seleziona tutti i frammenti in cui è presente la risposta alla query, quindi seleziona quello più rilevante e inserisce i collegamenti al documento nel campo del modulo. Grazie a questo approccio, un ottimizzatore competente può rifarlo dopo aver visto uno snippet, migliorando così l'attrattiva del collegamento.

Per meglio percepire il risultato della richiesta dell'utente, i titoli sono formattati come collegamenti nel testo (evidenziati in blu con sottolineatura). Per rendere la risorsa web attraente e riconoscibile, viene aggiunta una favicon, una piccola icona aziendale del sito. Appare a sinistra del testo sulla prima riga prima dell'intestazione. Tutte le parole incluse nella richiesta nella risposta sono evidenziate anche in grassetto per facilitare la percezione.

Recentemente, il motore di ricerca Yandex ha aggiunto varie informazioni allo snippet che aiuteranno l'utente a trovare la risposta in modo ancora più rapido e preciso. Ad esempio, se un utente scrive il nome di un'organizzazione nella sua richiesta, Yandex aggiungerà nello snippet il suo indirizzo, i numeri di contatto e un collegamento alla posizione nelle mappe geografiche. Se il motore di ricerca ha familiarità con la struttura del sito, che contiene un documento con una risposta per l'utente, lo mostrerà sicuramente. Inoltre, Yandex può aggiungere immediatamente allo snippet le pagine più visitate di tale risorsa web in modo che, se lo desidera, il visitatore possa andare immediatamente alla sezione di cui ha bisogno, risparmiando tempo.

Nei documenti di ricerca ci sono frammenti che contengono il prezzo di un prodotto per un negozio online, la valutazione di un hotel o di un ristorante sotto forma di stelle e altre informazioni interessanti con numeri diversi sugli oggetti. Lo scopo di tali informazioni è fornire un elenco completo di dati su quegli elementi o oggetti che interessano all'utente.

In generale, con vari esempi, la pagina con le risposte sarà simile a questa:

Classifica e valutatori

Il compito di Yandex include non solo la ricerca di tutte le possibili opzioni di risposta, ma anche la selezione di quelle migliori (rilevanti). Dopotutto, l'utente non frugherà tra tutti i collegamenti che Yandex gli fornirà come risultato della ricerca. Il processo di organizzazione dei risultati della ricerca si chiama classifica . Cioè, è la classifica che determina la qualità delle risposte proposte.

Esistono regole in base alle quali Yandex determina le pagine pertinenti:

  • I siti che peggiorano la qualità della ricerca verranno declassati nelle posizioni nella pagina dei risultati. Di solito si tratta di risorse web i cui proprietari cercano di ingannare il motore di ricerca. Si tratta ad esempio di siti con pagine contenenti testo privo di significato o invisibile. Naturalmente è visibile e comprensibile a un robot di ricerca, ma non a un visitatore che legge questo documento. Oppure siti che, quando si clicca su un collegamento nell'area dei risultati di ricerca, trasferiscono immediatamente l'utente a un sito completamente diverso.
  • I siti con contenuti erotici non sono inclusi nei risultati o sono notevolmente inferiori nella classifica. Ciò è dovuto al fatto che tali risorse web utilizzano spesso metodi di promozione aggressivi.
  • I siti infetti da virus non vengono visualizzati nei risultati di ricerca e non vengono esclusi dai risultati di ricerca: in questo caso l'utente viene informato del pericolo tramite un'icona speciale. Ciò è dovuto al fatto che Yandex presuppone che tali risorse web possano contenere documenti importanti su richiesta del visitatore del motore di ricerca.

Ad esempio, ecco come Yandex classificherà i siti per la query “mela”:

Oltre ai fattori di classificazione, Yandex utilizza campioni speciali con domande e risposte che gli utenti dei motori di ricerca considerano più adatte. Nessuna macchina al momento può realizzare tali campioni: questa è una prerogativa dell'uomo. In Yandex vengono chiamati tali specialisti valutatori. Il loro compito è analizzare completamente tutti i documenti di ricerca e valutare le risposte alle domande specificate. Selezionano le risposte migliori e creano un set di formazione speciale. In esso, il motore di ricerca vede la relazione tra le pagine pertinenti e le loro proprietà. Avendo tali informazioni, Yandex può selezionare la formula di ranking ottimale per ciascuna richiesta. Il metodo per costruire tale formula si chiama Matrixnet. Il vantaggio di questo sistema è che è resistente all'overfitting, il che consente di tenere conto di un gran numero di fattori di classificazione senza aumentare il numero di valutazioni e modelli non necessari.

Alla fine del mio post, voglio mostrarti interessanti statistiche raccolte dal motore di ricerca Yandex nel processo del suo lavoro.

1. Popolarità dei nomi personali in Russia e nelle città russe (dati presi dagli account di blogger e utenti di social network nel marzo 2012).

Grande Veggente

Nel 1863, il grande scrittore Jules Verne creò il suo libro successivo, “Parigi nel XX secolo”. In esso descrive in dettaglio la metropolitana, l'auto, la sedia elettrica, il computer e persino Internet. Tuttavia, l’editore si rifiutò di stampare il libro ed esso rimase lì per più di 120 anni finché non fu ritrovato dal pronipote di Jules Verne nel 1989. Il libro è stato pubblicato nel 1994.

1. Termini e definizioni Nel presente accordo sul trattamento dei dati personali (di seguito denominato Accordo), i termini seguenti hanno le seguenti definizioni: Operatore - Imprenditore individuale Oleg Aleksandrovich Dneprovsky. Accettazione del Contratto - accettazione piena e incondizionata di tutti i termini del Contratto mediante l'invio e il trattamento dei dati personali. Dati personali - informazioni inserite dall'Utente (soggetto dei dati personali) sul sito e collegate direttamente o indirettamente a tale Utente. Utente: qualsiasi persona fisica o giuridica che ha completato con successo la procedura di compilazione dei campi di input sul sito. La compilazione dei campi di input è la procedura con cui l'Utente invia il proprio nome, cognome, numero di telefono, indirizzo email personale (di seguito Dati Personali) al database degli utenti registrati al sito, effettuata allo scopo di identificare l'utente. A seguito della compilazione dei campi di input, i dati personali vengono inviati al database dell’Operatore. La compilazione dei campi di input è volontaria. sito web: un sito web situato su Internet e costituito da una pagina. 2. Disposizioni generali 2.1. Il presente Accordo è redatto sulla base dei requisiti della Legge Federale del 27 luglio 2006 n. 152-FZ "Sui dati personali" e delle disposizioni dell'Articolo 13.11 sulla "Violazione della legislazione della Federazione Russa in materia di dati personali” del Codice degli illeciti amministrativi della Federazione Russa ed è valido per tutti i dati personali che l'Operatore può ottenere sull'Utente durante l'utilizzo del Sito. 2.2. La compilazione dei campi di input da parte dell'Utente sul Sito implica l'accordo incondizionato da parte dell'Utente con tutti i termini del presente Accordo (Accettazione del Contratto). In caso di disaccordo con queste condizioni, l'Utente non compila i campi di input sul Sito. 2.3. Il consenso dell’Utente alla fornitura dei dati personali all’Operatore e al loro trattamento da parte dell’Operatore è valido fino alla cessazione delle attività dell’Operatore o fino alla revoca del consenso da parte dell’Utente. Accettando il presente Accordo e completando la procedura di Registrazione, nonché accedendo successivamente al Sito, l'Utente conferma che, agendo di propria libera volontà e nel proprio interesse, trasferisce i propri dati personali per il trattamento all'Operatore e accetta di la loro elaborazione. L'Utente viene informato che il trattamento dei suoi dati personali sarà effettuato dall'Operatore sulla base della legge federale del 27 luglio 2006 n. 152-FZ "Sui dati personali". 3. Elenco dei dati personali e altre informazioni sull'utente da trasferire all'Operatore 3. 1. Quando utilizza il sito Web dell'Operatore, l'Utente fornisce i seguenti dati personali: 3.1.1. Informazioni personali affidabili che l'Utente fornisce su se stesso in modo indipendente durante la compilazione dei campi di input e/o nel processo di utilizzo dei servizi del Sito, inclusi cognome, nome, patronimico, numero di telefono (di casa o cellulare), indirizzo e-mail personale. 3.1.2. Dati che vengono automaticamente trasferiti ai servizi del Sito durante il loro utilizzo utilizzando il software installato sul dispositivo dell'Utente, incluso l'indirizzo IP, informazioni dai Cookie, informazioni sul browser dell'Utente (o altro programma attraverso il quale si accede ai servizi). 3.2. L'Operatore non verifica l'accuratezza dei dati personali forniti dall'Utente. In questo caso, l'Operatore presuppone che l'Utente fornisca informazioni personali affidabili e sufficienti sulle domande proposte nei campi di input. 4. Finalità, regole per la raccolta e l'utilizzo dei dati personali 4.1. L'Operatore tratta i dati personali necessari per fornire servizi e fornire servizi all'Utente. 4.2. I dati personali dell'Utente vengono utilizzati dall'Operatore per i seguenti scopi: 4.2.1. Identificazione dell'utente; 4.2.2. Fornire all'Utente servizi personalizzati (nonché informare su nuove promozioni e servizi della società mediante l'invio di lettere); 4.2.3. Mantenere il contatto con l'Utente, se necessario, incluso l'invio di notifiche, richieste e informazioni relative all'utilizzo dei servizi, alla fornitura di servizi, nonché l'elaborazione di richieste e richieste dell'Utente; 4.3. Durante il trattamento dei dati personali verranno eseguite le seguenti azioni: raccolta, registrazione, sistematizzazione, accumulazione, conservazione, chiarimento (aggiornamento, modifica), estrazione, utilizzo, blocco, cancellazione, distruzione. 4.4. L'utente non si oppone al fatto che le informazioni da lui specificate in alcuni casi possano essere fornite agli enti statali autorizzati della Federazione Russa in conformità con la legislazione vigente della Federazione Russa. 4.5. I dati personali dell'Utente vengono archiviati e trattati dall'Operatore secondo le modalità previste dal presente Accordo per l'intero periodo di attività dell'Operatore. 4.6. Il trattamento dei dati personali viene effettuato dal Gestore mediante il mantenimento di banche dati, modalità automatizzate, meccaniche e manuali. 4.7. Il Sito utilizza cookie e altre tecnologie per tracciare l'utilizzo dei servizi del Sito. Questi dati sono necessari per ottimizzare il funzionamento tecnico del Sito e migliorare la qualità della fornitura del servizio. Il Sito registra automaticamente le informazioni (inclusi URL, indirizzo IP, tipo di browser, lingua, data e ora della richiesta) su ciascun visitatore del Sito. L'utente ha il diritto di rifiutarsi di fornire dati personali quando visita il Sito o di disabilitare i Cookie, ma in questo caso non tutte le funzionalità del Sito potrebbero funzionare correttamente. 4.8. Le condizioni di riservatezza previste dal presente Accordo si applicano a tutte le informazioni che l'Operatore può ottenere sull'Utente durante la permanenza di quest'ultimo sul Sito e l'utilizzo del Sito. 4.9. Le informazioni divulgate pubblicamente durante l'esecuzione del presente Accordo, nonché le informazioni che possono essere ottenute dalle parti o da terzi da fonti a cui qualsiasi persona ha libero accesso, non sono riservate. 4.10. L’Operatore adotta tutte le misure necessarie per proteggere la riservatezza dei dati personali dell’Utente da accessi, modifiche, divulgazione o distruzione non autorizzati, tra cui: garantire una costante verifica interna dei processi di raccolta, archiviazione ed elaborazione dei dati e garantire la sicurezza; garantisce la sicurezza fisica dei dati, impedendo l'accesso non autorizzato ai sistemi tecnici che garantiscono il funzionamento del Sito, in cui l'Operatore memorizza i dati personali; fornisce l'accesso ai dati personali solo ai dipendenti dell'Operatore o alle persone autorizzate che necessitano di tali informazioni per svolgere compiti direttamente correlati alla fornitura di servizi all'Utente, nonché al funzionamento, allo sviluppo e al miglioramento del Sito. 4.11. I dati personali dell'Utente rimangono confidenziali, tranne nei casi in cui l'Utente fornisce volontariamente informazioni su se stesso per l'accesso generale a un numero illimitato di persone. 4.12. Il trasferimento da parte dell'Operatore dei dati personali dell'Utente è legale durante la riorganizzazione dell'Operatore e il trasferimento dei diritti al successore legale dell'Operatore, mentre tutti gli obblighi di rispettare i termini del presente Accordo in relazione alle informazioni personali da lui ricevute sono trasferito al successore legale. 4.13. La presente Informativa si applica solo al Sito Web dell’Operatore. La Società non controlla e non è responsabile dei siti (servizi) di terzi a cui l’utente può accedere tramite i collegamenti disponibili sul Sito Web dell’Operatore, anche nei risultati di ricerca. Su tali Siti (servizi), potrebbero essere raccolte o richieste all'utente altre informazioni personali e potrebbero essere eseguite altre azioni 5. Diritti dell'utente in quanto interessato dei dati personali, modifica e cancellazione dei dati personali da parte dell'utente 5.1. L'utente ha il diritto: 5.1.2. Richiedere all'Operatore di chiarire i suoi dati personali, bloccarli o distruggerli se i dati personali sono incompleti, obsoleti, inesatti, ottenuti illegalmente o non necessari per lo scopo dichiarato del trattamento, e inoltre adottare le misure previste dalla legge per proteggere i suoi diritti. 5.1.3. Ricevere informazioni relative al trattamento dei suoi dati personali, comprese le informazioni contenenti: 5.1.3.1. conferma del trattamento dei dati personali da parte dell'Operatore; 5.1.3.2. le finalità e le modalità del trattamento dei dati personali utilizzate dal gestore; 5.1.3.3. nome e ubicazione dell'Operatore; 5.1.3.4. dati personali trattati relativi all'oggetto dei dati personali in questione, la fonte della loro ricezione, a meno che la legge federale non preveda una procedura diversa per la presentazione di tali dati; 5.1.3.5. termini di trattamento dei dati personali, compresi i periodi di conservazione; 5.1.3.6. altre informazioni previste dalla normativa vigente della Federazione Russa. 5.2. La revoca del consenso al trattamento dei dati personali può essere effettuata da parte dell'Utente inviando al Gestore apposita comunicazione scritta (stampata su supporto materiale e firmata dall'Utente). 6. Responsabilità dell'Operatore. Accesso ai dati personali 6.1. L’Operatore si impegna a garantire la prevenzione di accessi non autorizzati e non mirati ai dati personali degli Utenti del Sito Web dell’Operatore. In questo caso, l’accesso autorizzato e mirato ai dati personali degli Utenti del Sito sarà considerato accesso agli stessi da parte di tutte le parti interessate, attuato nell’ambito degli obiettivi e oggetto del Sito dell’Operatore. Allo stesso tempo, l’Operatore non è responsabile per un possibile uso improprio dei dati personali degli Utenti che si verifica a causa di: problemi tecnici nel software, nell’hardware e nelle reti che esulano dal controllo dell’Operatore; in relazione all’uso intenzionale o involontario dei siti web dell’Operatore diversi dallo scopo previsto da parte di terzi; 6.2 L'Operatore adotta le misure organizzative e tecniche necessarie e sufficienti per proteggere le informazioni personali dell'utente da accesso non autorizzato o accidentale, distruzione, modifica, blocco, copia, distribuzione, nonché da altre azioni illegali di terzi nei suoi confronti. 7. Modifiche all'Informativa sulla Privacy. Legislazione applicabile 7.1. L'Operatore ha il diritto di apportare modifiche al presente Regolamento senza alcun preavviso agli Utenti. Quando vengono apportate modifiche all'edizione corrente viene indicata la data dell'ultimo aggiornamento. La nuova edizione del Regolamento entra in vigore dal momento della sua pubblicazione, salvo diversamente previsto dalla nuova edizione del Regolamento. 7.2. Al presente Regolamento e al rapporto tra Utente e Operatore derivante dall'applicazione del Regolamento si applica la legge della Federazione Russa. Accetto, non accetto