Got bored this evening so I quickly implemented an idea me and Martin talked briefly at our last out of the office beer meeting.
Ladies and gentlemen, here's Andu's web 2.0 spamcloud.
Note: since I'm moderating comments your comment might appear on the spamcloud. Don't worry, it will wanish when I approve it.
Trackback URL for this post:
http://voidberg.org/trackback/135



Comments
Care principiul acestor "clouds"? Cum determini care expresii ar trebui puse si de cate ori apar? La cuvinte mi se pare destul de evident, le numeri si aia e, dar la expresii pare ceva mai complicat, mai ales ca pot exista mici variatii pe aceeasi tema...
Poti sa-mi recomanzi vreo "documentatie" in domeniu?
La mine pe blog spammerii sunt consistenţi aşa că tratez expresiile unitar. Daca sunt identice, adaug la număr, daca nu, le tratez separat.
Documentaţie nu ştiu să-ţi recomand, dar mă pot interesa la proful meu de lingvistică computaţională, ar trebui să ştie. Noi nu am atins subiectul ăsta la curs.
Ai putea încerca asta: aduci toate cuvintele din expresie la forma lor de bază, cu un algoritm Porter Stemming, apoi compari câte sunt egale şi dacă se afla pe aceleaşi poziţii în cele două expresii. Îţi alegi nişte criterii (toate cuvintele egale dar poziţii diferite, egale şi poziţii diferite, x cuvinte egale etc) şi pe baza lor decizi dacă sunt "egale".
Să văd ce pot afla.
Mersi de idei.
Din cate am observat tu iei direct subiectele mesajelor, eu in principiu asta intrebam :) (initial credeam ca faci analiza sintactica si pe continutul mesajelor). Oricum, daca gasesti ceva despre subiect, sunt interesat...
varza
Si suntem verze pentru ca?
Post new comment