wtorek, 12 lutego 2013

Rozległe chmury fraz kluczowych

Działalność bloga rozpoczęliśmy wpisem o patencie, który stał u podstaw wyszukiwarki Google (czy też Backrub). Kolejny wpis poświęcamy jednemu z ostatnich zgłoszeń patentowych Google: Integrated External Related Phrase Information into a Phrase-based Indexing Information Retrieval System, autorstwa A. L. Patterson nr US 2012/0197885 A1.

Rozwiązanie zaproponowane w dokumencie jest o tyle ciekawe, że może oznaczać, że nasycenie strony internetowej frazą wyszukiwaną (a więc pozycjonowaną) może nie mieć żadnego znaczenia dla oceny tej strony i jej miejsca w rankingu wyszukiwarki dla frazy, o której mówimy. Google z premedytacją ominie taką frazę w analizie i skupi się na występowaniu w tekście (na stronie) wyrażeń z nią powiązanych. Dziwne? W żadnym wypadku. Pomysł jest bardzo ciekawy, a koncepcja spójna. I co więcej, wydaje się, że ta (lub podobna) metoda już została w algorytmach Google zastosowana.

poniedziałek, 27 sierpnia 2012

Patent nr 1: PageRank

A właściwie patent nr US6285999 o tytule "Method for Node Ranking in a Linked Database". Od niego wszystko się zaczęło.

Larry Page opisuje w nim następującą sytuację wyjściową. Duże bazy dokumentów mają problem z dużą ilością dokumentów kiepskiej jakości, które w wynikach wyszukiwania z takiej bazy skutecznie przysłaniają dokumenty wartościowe.
Large databases of documents such as the Web contain many low quality documents. As a result, searches typically return hundreds of irrelevant or unwanted documents which camoullage the few relevant ones.
Wyszukiwarki próbują sobie z tym radzić oceniając dokumenty. Przykładowe źródła tej oceny to:
  • aktualność dokumentu,
  • lokalizacja wyszukiwanej frazy w dokumencie (im bliżej początku, tym lepiej),
  • liczenie cytowań (lub linków) z innych dokumentów bez oceny jakości cytujących (linkujących) dokumentów.
Page proponuje rozbudowę ostatniej metody o mierzenie jakości cytowań (linków). Jakość dokumentu zależy od jakości dokumentów, które do niego linkują. Niby proste, ale oznacza to zapętlanie procedury oceny (rekursywność). Trzeba będzie stale przeliczać oceny...