Skip to main content

Ce este filtrul Bayesian Spam?

Ce este filtrul de particule? - Cavaleria.ro (Aprilie 2025)

Ce este filtrul de particule? - Cavaleria.ro (Aprilie 2025)
Anonim

Filtrele spam bayesian calculează probabilitatea ca un mesaj să fie spam bazat pe conținutul său. Spre deosebire de filtrele simple bazate pe conținut, filtrarea spam-ului Bayesian învață de la spam și de la poșta bună, ducând la o abordare anti-spam foarte robustă, adaptabilă și eficientă care, cel mai bine, nu întoarce aproape deloc fals pozitive.

Cum recunoașteți e-mailurile nedorite?

Gândiți-vă la modul în care detectați spamul. O scurtă privire este adesea suficientă. Știi cum arată spamul și știi cum arată poșta bună.

Probabilitatea ca spam-ul să arate ca o corespondență bună este în jur de … zero.

Scorarea filtrelor bazate pe conținut nu se adaptează

Nu ar fi minunat ca filtrele automate de spam să funcționeze așa?

Scorarea filtrelor de spam bazate pe conținut încearcă doar asta. Ei caută cuvinte și alte caracteristici tipice de spam. Fiecărui element caracteristic i se atribuie un punctaj, iar un scor de spam pentru întreg mesajul este calculat din scorurile individuale. Unele filtre de notare caută și caracteristicile poștei legitime, scăzând scorul final al mesajului.

Metoda de filtrare a scorurilor nu funcționează, dar are și câteva dezavantaje:

  • Lista de caracteristici este construită din spam (și poșta bună), la dispoziția inginerilor filtrului. Pentru a înțelege bine tipul de spam obișnuit, poșta trebuie colectată la sute de adrese de e-mail. Acest lucru slăbește eficiența filtrelor, mai ales datorită faptului că caracteristicile poștei bune vor fi diferite pentru fiecare persoană , dar acest lucru nu este luat în considerare.
  • Caracteristicile pe care le căutați sunt mai mult sau mai puțin în piatră . În cazul în care spammerii fac efortul de a se adapta (și de a face spam-ul lor să pară ca un mesaj bun pentru filtre), caracteristicile de filtrare trebuie să fie modificate manual - un efort și mai mare.
  • Scorul atribuit fiecărui cuvânt se bazează, probabil, pe o estimare bună, dar este încă arbitrară. Ca și lista de caracteristici, nu se adaptează nici la lumea schimbătoare de spam în general, nici la nevoile unui utilizator individual.

Bayesian Filtre Spam Tweak-te, Noțiuni de bază mai bine și mai bine

Bayesian filtrele de spam sunt un fel de scoruri de conținut bazate pe filtre, de asemenea. Abordarea lor elimină problemele de filtrare a spamurilor simple, însă se întâmplă atât de radical. Deoarece slăbiciunea filtrelor de notare este în lista manuală de caracteristici și scorurile lor, această listă este eliminată.

În schimb, filtrele Bayesian spam construiesc singură lista. In mod ideal, incepeti cu un buzunar (mare) de e-mailuri pe care le-ati clasificat drept spam, si un alt buchet de mailuri bune. Filtrele se uită la ambele și analizează corespondența legitimă, precum și spam-ul pentru a calcula probabilitatea apariției diferitelor caracteristici care apar în spam și în mesajele bune.

Cum un filtru Bayesian Spam examinează un e-mail

Caracteristicile unui filtru de spam Bayesian se pot uita la:

  • cuvintele din corpul mesajului, desigur, și
  • (cum ar fi expeditorii și căile de mesaje, de exemplu!), dar și
  • alte aspecte, cum ar fi codul HTML / CSS (cum ar fi culorile și alte formate) sau chiar
  • perechi de cuvinte, fraze și
  • informații meta (unde apare, de exemplu, o anumită expresie).

Dacă un cuvânt, "cartezian", de exemplu, nu apare niciodată în spam, dar de multe ori în e-mailurile legitime pe care le primiți, probabilitatea că "cartesian" indică spam-ul este aproape de zero. "Toner", pe de altă parte, apare exclusiv, și adesea, în spam. "Toner" are o probabilitate foarte mare de a fi găsit în spam, nu cu mult sub 1 (100%).

Atunci când sosește un mesaj nou, acesta este analizat de filtrul de spam Bayesian, iar probabilitatea ca mesajul complet să fie spam este calculat utilizând caracteristicile individuale.

Să presupunem că un mesaj conține atât cartesian cât și toner. Doar din aceste cuvinte nu este încă clar dacă avem mesaje spam sau legit. Alte caracteristici vor indica (probabil și probabil) o probabilitate care să permită filtrului să clasifice mesajul ca spam sau poștă bună.

Filtrele Bayesian Spam se pot învăța automat

Acum că avem o clasificare, mesajul poate fi folosit pentru a instrui mai departe filtrul. În acest caz, fie că probabilitatea de "carteziană" care indică o corespondență bună este redusă (dacă mesajul care conține atât cartesian, cât și toner este spam) sau probabilitatea ca tonerul care indică spam să fie reconsiderat.

Folosind această tehnică auto-adaptivă, filtrele Bayesian pot să învețe atât de la propriile lor, cât și de la decizia utilizatorului (dacă corectează manual o apreciere greșită a filtrelor). Adaptabilitatea filtrării Bayesian se asigură, de asemenea, că acestea sunt cele mai eficiente pentru utilizatorul individual de e-mail. Deși spamul majorității oamenilor poate avea caracteristici similare, poșta legitimă este în mod caracteristic diferită pentru toată lumea.

Cum poate Spammerii să obțină filtre Bayesian din trecut?

Caracteristicile poștei legitime sunt la fel de importante pentru procesul de filtrare a spam-ului ca spam. Dacă filtrele sunt instruite special pentru fiecare utilizator, spam-urile vor avea un timp mult mai greu de lucru în jurul filtrelor de spam ale fiecăruia (sau chiar al celor mai mulți), iar filtrele se pot adapta la aproape tot ce încercuiesc spamerii.

Spamatorii nu vor face decât să treacă prin filtre bayesiene bine pregătite dacă își vor face mesajele de spam să arate perfect ca e-mailurile obișnuite pe care toată lumea le poate obține.

Spamatorii nu trimit de obicei astfel de e-mailuri obișnuite. Să presupunem că acest lucru se datorează faptului că aceste e-mailuri nu funcționează ca e-mail nesolicitat.Deci, șansele sunt că nu o vor face atunci când e-mailurile obișnuite, plictisitoare sunt singura modalitate de a face filtrul de spam.

Dacă spammerii vor trece în majoritatea e-mailurilor cu aspect obișnuit, cu toate acestea, vom vedea din nou mesajele de poștă electronică în Inbox-urile noastre, iar e-mailul poate deveni la fel de frustrant ca în zilele pre-bayesiene (sau chiar mai rău). De asemenea, aceasta va distruge piața pentru cele mai multe tipuri de spam, și astfel nu va dura mult timp.

Indicatori puternici Poate fi un călcâi al lui Achilles din filtrul Bayesian Spam

O excepție poate fi percepută pentru ca spammerii să se străduiască prin filtre bayesiene chiar și cu conținutul lor obișnuit. Este în natura statisticilor bayesiene că un cuvânt sau o caracteristică care apare foarte frecvent în poșta bună poate fi atât de semnificativă încât să transforme orice mesaj de la aspectul de spam ca fiind considerat ca fiind sunca de către filtru.

Dacă spammerii găsesc o modalitate de a determina cuvintele dvs. de siguranță prin poștă electronică, folosind declarațiile de returnare HTML pentru a vedea ce mesaje ați deschis, de exemplu, aceștia pot include unul dintre ei într-o corespondență nedorită și pot ajunge chiar și printr- un filtru bayesian instruit.

John Graham-Cumming a încercat acest lucru prin a lăsa două filtre bayesiene să funcționeze unul împotriva celuilalt, cel "rău" care se adaptează mesajelor care se găsesc prin filtrul "bun". El spune că funcționează, deși procesul este consumator de timp și complex. Nu credem că vom vedea o mare parte din acest lucru, cel puțin nu pe o scară largă, și nu adaptat caracteristicilor de e-mail ale persoanelor. Spamatorii pot încerca să încerce să găsească câteva cuvinte cheie pentru organizații (cum ar fi "Almaden" pentru unii oameni de la IBM, poate?).

De obicei, spamul va fi întotdeauna (semnificativ) diferit de poșta obișnuită sau nu va fi spam, totuși.

Linia de fund: forța Bayesiană de filtrare poate fi slăbiciunea ei

Bayesian filtre de spam suntfiltrele bazate pe conținut acea:

  • suntețiinstruit special pentru a recunoaște spam-ul utilizatorului individual și e-mail-ul bun, ceea ce le face extrem de eficiente și dificil de adaptat pentru spammerii.
  • pot continuu și fără mult efort sau analiză manualăadapta la cele mai recente trucuri ale spammerilor.
  • ia în considerare mailul utilizatorului individual și are foarte multrata scăzută de fals pozitive.
  • Din păcate, dacă acest lucru cauzează oarecare încredere în filtrele anti-spam bayesiene, acesta face caeroare ocazională și mai gravă. Efectul opus alfalse negative (spam-ul care arată exact ca și poșta obișnuită) are potențialul de a deranja și de a împiedica utilizatorii.