понедельник, 24 ноября 2014 г.

Google PageRank


Теоретические основы.

 Компания Гугл первая внедрила учет ссылочных факторов. Алгоритм получил название Google PageRank и совершил переворот в качестве поиска. В основу алгоритма легла идея цитируемости, принятая в научном мире. Чем чаще цитируют и ссылаются на ученого в своих работах другие ученые – тем, соответственно, больший вес имеет «цитируемый» человек. То же самое и с сайтами – чем больше ссылок на данный ресурс, тем выше его вероятная ценность.

Понятно, что учитывать требуется не только количество ссылок, но и их качество. «Голос» с сайта Майкрософт куда более весом, чем голос домашней странички Васи Пупкина.

В алгоритме PageRank используется модель перехода пользователя по ссылкам на сайтах. Предполагается, что первую страницу человек выбирает случайным образом из всех страниц Интернета. В жизни это, конечно, не так – есть сайты популярные и именно с них начинается работа в сети. Но в нашей математической модели мы все страницы изначально считаем равными.

Далее посетитель по ссылкам переходит на другие сайты. Опять таки, мы не учитываем, что одни ссылки более заметны, а другие «спрятаны» внизу страницы однопиксельным шрифтом. Все ссылки мы считаем равными, и вероятность перехода по каждой обратно пропорциональна их количеству. Если на странице 10 ссылок, то вероятность клика по любой из них 1/10. Также вводится «коэффициент затухания»: полагаем, что с вероятностью 15% человек не будет вообще переходить по ссылкам, а просто закроет страницу и начнет просмотр с новой, случайно выбранной.

Теперь давайте разберем работу алгоритма на примере. Пусть у нас есть три блогера.

1. Ваня Иванов. Ему 10 лет и вчера родители купили ему книгу по HTML, после чего Ваня сделал свою первую Интернет-страницу.

2. Петя Петров. Он уже несколько лет активно пишет в своем блоге. Правда особой популярности не достиг, но порой выдает кое-какую полезную информацию и его изредка, но все же читают.

3. Артемий Лебедев. Если мне не изменяет память, то одно время считался самым популярным блогером Рунета.



На первом шаге все три страницы имеют равный «вес». Допустим 100 единиц веса каждая. Обратите внимание, что у Вани Иванова на странице 2 ссылки, и каждая из них передает 50 единиц веса. А у Темы Лебедева 30 ссылок, и каждая «весит» всего лишь 3 единицы.

Запускаем алгоритм расчета PageRank и обрабатываем все страницы Интернета и связи между ними. После полного пересчета мы получим уже совсем иную картину, чем была вначале.

Вес Вани Иванова, на которого никто не ссылается вообще, как был, так и остался 100 единиц. Вес блога Пети Петрова стал 500 единиц, т.к. Петю все таки иногда «цитируют» в сети. Вес блога Артемия Лебедева стал равным 10 тыс. единиц – учлись ссылки с множества различных источников.

Т.е. после первого пересчета мы получили грубую, но все таки оценку авторитетности сайтов. Конечно, результаты далеки от идеала, т.к. на первом шаге у нас была заложена чудовищная неточность (Ваня Иванов = Петя Петров = Артемий Лебедев). Поэтому мы запускаем второй пересчет или, говоря математическим языком, вторую итерацию. На этот раз мы работаем с теми весами, которые рассчитали на первом шаге. Обратите внимание, ссылка Вани Иванова по прежнему «весит» 50 единиц. А вот ссылка Артемия вместо 3 единиц веса стала передавать 300!

После определенного количества итераций веса сайтов практически перестанут изменяться. Т.е. цифры, полученные на текущем и на предыдущем шаге, будут почти равными. Это означает, что расчеты можно заканчивать – мы смогли измерить «вес» и авторитетность каждой страницы, с учетом структуры всех ссылок Интернета.

Комментариев нет:

Отправить комментарий