Листал тут не давно Википедию и на ткнулся на интересные ссылки. Думаю тем кто создает доргены нужно серьезно с этими ссылками познакомиться. Метод обнаружения поискового спама, порожденного с помощью цепей Маркова. http://rcdl2009.krc.karelia.ru/doc/full_text/311_317_Section10-1.pdf Поиск неестественных текстов. http://rcdl2009.krc.karelia.ru/doc/full_text/306_308_Section09-3.pdf
<_< осилил оба текста. Насчет маркова - если сравнивать большие куски текста (от 1к знаков) умноженное на большое количество страниц дорвея - тогда можно определить что в общем сайт некачественный. Но если взять любой интернет магазин (т.е. белый сайт для людей) - тут и марков отдыхает, тут получаются те же самые частичные дубли и прочие признаки характерные дорвею и даже маркову, т.е. и инет магазины вполне могут улететь в баню. Т.е. гарантированно выделить - одно хорошее, другое плохое - не получится... Про вторую статью. Все что я сейчас написал выше - похоже на человеческий текст? нифига, бредотекст сонного уставшего сеошнега (сленг - считай теже синонимы) не очень дружащего с русским языком. Но разве это значит что данных текст сгенерирован автоматически и предназначен не для людей а только для поисковых ботов? P.S. определить что текст не сильно соответствует правилам русского/любого другого языка не проблема, но это не значит что он не для людей и что сгенерен автоматом, потому на деле такие факторы и анализы применять опасно, пострадает много невиновных, хотя яндекс мудак, они любят на живых людях ставить эксперименты... Я пошел спать
По пунктам. 1. Что касается интернет магазин и дублей страниц как забанила поисковая машина так и разбанит. Если текст конечно качественный. А вот какой дорвейщик будет писать Платонам, что бы разбанили его дорвей . Легче еще сотню сделать. 2. Что мешает поисковым машинам иметь тематические и в том числе сленговые словари и на основе, словарей делать шаблоны с самообучение алгоритмов. Во общем иметь нейронные сети Google к этому движется. 3. Яндекс мудак полностью согласен. Ну из моего опыта причина бана дорвеев в поисковых машинах. 1. Не качественный текст. 2. Высокая плотность ключевых слов. a. В <title> b. В description c. В keywords e. В заголовках. f. В самом тексте. Во общем высокая плотность ключевых слов автоматически включает спам фильтр поисковой машины. 3. Редирект если он уж не совсем какой нибудь хитрый. При этом может палиться не только сам например JavaScrip редирект, но и переход серфера с дора на партнерку тулбарами поисковых машин. 4. Не уникальные шаблоны особенно если доры линковать между собой. 5. Плохие ссылки особенно если спамить дор туда куда до тебя еще 100 человек спамило. 6. Происки и стук в поисковую машину конкурентов. 7. Асессоры поисковых машин. Вы еще не верите, что в каждой поисковой машине есть ассесоры (или по русски говоря модератор поисковой выдачи) тогда мы идем к вам. Вот тут яндекс набирает на работу тех, кто будет руководить рабами http://company.yandex.ru/job/vacancies/search_project_manager.xml А вот тут яндекс набирает рядовых стукачей http://company.yandex.ru/job/vacancies/asessor_man.xml P.S Вроде пока все, будет время выложу еще интересные документы для изучения, по алгоритмам поисковых машин. B)