Победы Поиска Mail.Ru: индексация, навигация, блоги и регионы

Компания «Ашманов и партнеры» опубликовала аналитический отчет о качестве работы основных поисковых систем рунета за последний год. Нам есть чем гордиться: Поиск Mail.Ru обошел все поисковики по показателю быстрой индексации (в течение первых двух дней).

[Веб-индексирование — это когда на веб-ресурс приходит робот поисковой машины и добавляет сведения (контент) в базу данных, впоследствии использующуюся для полнотекстового поиска на проиндексированных сайтах.]

И это еще не все!

Только из-за успешной индексации мы не стали бы создавать целый пост. С помощью анализаторов проекта Analyze This видно, как с течением времени меняется качество Поиска.

Но обо всем по порядку.

(далее…)

Read More

О «праве на забвение»

Anton-730x730Сегодня в первом чтении был принят проект федерального закона № 804132-6 «О внесении изменений в Федеральный закон «Об информации, информационных технологиях и о защите информации» и отдельные законодательные акты Российской Федерации».

Экспертов отрасли пригласили к участию в обсуждении проекта, и мы хотим рассказать о части наших замечаний, которые озвучили. Будут ли услышаны и реализованы наши предложения — в данный момент судить сложно, но диалог будет продолжен.

 

—    Чрезмерно широкий круг информации для удаления

Законопроект предусматривает обязанность по удалению ссылок на достоверную информацию, имеющую отношение к конкретному лицу, даже распространенную в соответствии с законом, более чем трехлетней давности.

Практически любые события в общественно-политической, культурной, экономической или иных сферах так или иначе связаны с информацией о конкретных людях. При этом требование об удалении ссылок на достоверную и законно распространенную информацию не обусловлено никакими иными критериями в отношении информации (например, негативный характер для заявителя и отсутствие ее значимости для других лиц и т.д.).

Кроме того, законопроект позволит удалять ссылки на доступные и законным образом созданные реестры и базы данных, средства массовой информации, что на практике может также привести к ограничению свободного обращения информации в целом.

 

 Возложение контрольной функции на оператора поисковой системы

Оператор поисковой системы не является владельцем информации, ссылки на которую предоставляются поисковой системой. Поэтому оператор поисковой системы не имеет и не может иметь сведений, необходимых знаний или полномочий для установления фактических и иных обстоятельств, которые позволят ему сделать выводы о действительности или недействительности заявленной гражданином информации, фактическом сроке произошедших событий, соблюдении требований закона при размещении той или иной информации.

Возложение на оператора поисковой системы обязанности по квалификации информации в соответствии с обозначенными в законопроекте категориями по сути наделяет оператора контрольными функциями за оборотом информации, для реализации которых у оператора нет ни необходимого инструментария, ни полномочий.

Более того, в этой части происходит подмена функций государственных исполнительных и судебных органов дискреционными полномочиями частных (как правило), в том числе зарубежных, операторов поисковых систем.

 

 Отсутствие необходимости предоставления URL

Формулировки закона предусматривают прекращение выдачи ссылок на информацию, а не на конкретные сайты или страницы. С практической точки зрения это означает, что поисковая система технически должна научиться определить информацию, ссылки на которую нельзя выдавать, найти такую информацию в интернете, заблокировать выдачу всех ссылок на все обнаруженные ресурсы, регулярно обновлять не только поисковый индекс, но и индекс информации, ссылки на которую нельзя выдавать.

Законопроект не предусматривает обязанность заявителя указывать конкретный адрес (URL) страницы, где содержится информация, ссылка на которую не подлежит выдаче. Вместе с тем, текущие алгоритмы работы требуют именно указания конкретного URL для исключения его из поисковой выдачи.

 

 Определение поисковой системы

Из определения «поисковой системы» не понятно, распространяется ли такое определение на поисковые системы в рамках отдельных ресурсов или отдельных сайтов (например, поиск по сайту, поиск в почте, поиск по социальной сети и др.). Определение требует уточнения для исключения такого специального вида поиска, как поиск ресурса по сайту, поиск в почте, поиск по социальной сети и др. 


Антон Мальгинов, 

руководитель юридического департамента Mail.Ru Group

Read More

Среднесуточные показатели в Статистике

Рекламодатель: А сколько человек бывает на вашем сайте из России?

Владелец сайта: Когда как — в понедельник тысяча, во вторник полторы, а в субботу только двести.

Рекламодатель: А в среднем сколько? За неделю, например.

Владелец сайта: Сейчас посчитаю…

(далее…)

Read More

Обновление на Рейтинге Mail.Ru

Мы делали, делали, и наконец доделали! Небольшое, но приятное обновление на Рейтинге Mail.Ru: мы выделили Яндекс.Блоги, Яндекс.Картинки и Google Картинки в поисковых запросах.

Ещё никогда не было так легко понять, что люди любят смотреть  на упоротого лиса, а не только читать о нём.  Ким Чен Ын же гораздо более читабелен, чем фотогеничен.

В этом легко убедиться:

ыыы

(далее…)

Read More

Удобный поиск по файлам в Почте Mail.Ru

Денис Аникин,

технический директор Почты Mail.Ru

Я часто ищу файлы в почте, но через обычный поиск это делать неудобно. Большинство почтовых сервисов не дает возможности искать только по имени файла – поиск ведется и по тексту письма тоже. В результате получается следующее: нужно найти, например, отчет, который присылали полгода назад. Забиваешь в поисковую строку «отчет» – он, вроде, так и назывался – и получаешь десяток писем вида «Отчет когда будет?», пару файлов с отчетами, но не теми, и картинку otchet.jpg, которую кто-то прислал к презентации. Потом, после получаса поисков, вообще оказывается, что у того самого документа имя из одних цифр…

(далее…)

Read More

Как создавался Поиск Mail.Ru

Андрей Калинин,
руководитель разработчиков Поиска Mail.Ru

Два года подряд все свои выступления на конференциях я начинал этой фразой, ведь даже не все специалисты по поиску знали о том, что их запросы, заданные в поисковой строке Mail.Ru с большой долей вероятности обрабатывались не лицензированным сторонним движком, а внутренней разработкой компании.Сейчас я вижу, что ситуация изменилась: многие знают и принимают наш поисковик. Однако вопросы или сомнения всё равно остаются – ну как так, Mail.Ru Group и пишет свой поиск? Mail.Ru Group — это почта, это социальные сети, развлечения… Что за поисковик они могут написать? Вот чтобы развеять эти сомнения, я и хочу рассказать о нашем поиске, о том, как мы его делаем, какие технологии используем, что хотим получить в итоге. Я надеюсь, что предлагаемая статья будет познавательной и интересной; более того, мы собираемся продолжить рассказ о наших технологиях уже более детально, и в следующих постах поговорить о машинном обучении, спайдере, антиспаме и т.п.

(далее…)

Read More