В поисковиках не хватает возможности искать в инете тексты не только по ключевым словам, но и все тексты схожие с некоторым эталоном.
Не знаю, какие бывают алгоритмы, анализирующие "почерк", ну вот наверное можно пробовать цепи Маркова.
Берется текст, строится матрица вероятностей, какое слово чаще следует за каким словом, итд: stochastic matrix.
Если у двух текстов матрицы вероятностей более-менее похожи, можно считать что их написал один и тот же человек (очень грубо, конечно, но хоть в каком-то приближении).
Затем уже искать среди готовых текстов (сайтов, блогов) те, которые похожи на некоторый эталон.
Например на писателя N. Потом, правда, может оказаться, что писатель сей активно комментирует чей-то ЖЖ анонимным образом.
Но все равно интересно.
Или, вот, в какие еще блоги пишет автор некоторого блога.
Comments
Только вот
Только вот матрицы получатся слишком большие, их как сравнивать?
-- kolen@lj
Не знаю, может
Не знаю, может быть есть какие-то методы... надо развивать тему дальше, пробовать, экспериментировать...