Поиск текстов

В поисковиках не хватает возможности искать в инете тексты не только по ключевым словам, но и все тексты схожие с некоторым эталоном.

Не знаю, какие бывают алгоритмы, анализирующие "почерк", ну вот наверное можно пробовать цепи Маркова.

Берется текст, строится матрица вероятностей, какое слово чаще следует за каким словом, итд: stochastic matrix.

Если у двух текстов матрицы вероятностей более-менее похожи, можно считать что их написал один и тот же человек (очень грубо, конечно, но хоть в каком-то приближении).

Затем уже искать среди готовых текстов (сайтов, блогов) те, которые похожи на некоторый эталон.

Например на писателя N. Потом, правда, может оказаться, что писатель сей активно комментирует чей-то ЖЖ анонимным образом.

Но все равно интересно.

Или, вот, в какие еще блоги пишет автор некоторого блога.

Comments

Только вот

Только вот матрицы получатся слишком большие, их как сравнивать?

-- kolen@lj

Не знаю, может

Не знаю, может быть есть какие-то методы... надо развивать тему дальше, пробовать, экспериментировать...