Spamcloud

Posted by andu
Tue, 2006-05-16 20:04

Got bored this evening so I quickly implemented an idea me and Martin talked briefly at our last out of the office beer meeting.

Ladies and gentlemen, here's Andu's web 2.0 spamcloud.

Note: since I'm moderating comments your comment might appear on the spamcloud. Don't worry, it will wanish when I approve it.

Trackback URL for this post:

http://voidberg.org/trackback/135

Comments

Comment viewing options

Select your preferred way to display the comments and click "Save settings" to activate your changes.
Strainu (not verified) - Thu, 2006-05-18 16:09

Care principiul acestor "clouds"? Cum determini care expresii ar trebui puse si de cate ori apar? La cuvinte mi se pare destul de evident, le numeri si aia e, dar la expresii pare ceva mai complicat, mai ales ca pot exista mici variatii pe aceeasi tema...
Poti sa-mi recomanzi vreo "documentatie" in domeniu?

andu - Tue, 2006-05-23 10:59

La mine pe blog spammerii sunt consistenţi aşa că tratez expresiile unitar. Daca sunt identice, adaug la număr, daca nu, le tratez separat.
Documentaţie nu ştiu să-ţi recomand, dar mă pot interesa la proful meu de lingvistică computaţională, ar trebui să ştie. Noi nu am atins subiectul ăsta la curs.
Ai putea încerca asta: aduci toate cuvintele din expresie la forma lor de bază, cu un algoritm Porter Stemming, apoi compari câte sunt egale şi dacă se afla pe aceleaşi poziţii în cele două expresii. Îţi alegi nişte criterii (toate cuvintele egale dar poziţii diferite, egale şi poziţii diferite, x cuvinte egale etc) şi pe baza lor decizi dacă sunt "egale".
Să văd ce pot afla.

Strainu (not verified) - Tue, 2006-05-23 15:32

Mersi de idei.
Din cate am observat tu iei direct subiectele mesajelor, eu in principiu asta intrebam :) (initial credeam ca faci analiza sintactica si pe continutul mesajelor). Oricum, daca gasesti ceva despre subiect, sunt interesat...

Keke (not verified) - Sat, 2006-12-02 07:11

varza

andu - Sat, 2006-12-02 12:11

Si suntem verze pentru ca?

Post new comment

  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Lines and paragraphs break automatically.
  • You can enable syntax highlighting of source code with the following tags: <code>, <blockcode>. Beside the tag style "<foo>" it is also possible to use "[foo]".

More information about formatting options

CAPTCHA
This question is for testing whether you are a human visitor and to prevent automated spam submissions.