Skip to main content

Bayesian Spam Filtering คืออะไร?

:

Anonim

ตัวกรองสแปม Bayesian คำนวณความน่าจะเป็นของข้อความที่เป็นสแปมตามเนื้อหา การกรองสแปมแบบ Bayesian จะเรียนรู้จากสแปมและจากอีเมลที่ดีทำให้ไม่ต้องใช้ตัวกรองเนื้อหาแบบง่ายๆการกรองสแปมแบบเบส์จะช่วยให้สามารถใช้งานการป้องกันสแปมที่มีประสิทธิภาพและสามารถปรับใช้ได้อย่างมีประสิทธิภาพ

คุณรับรู้อีเมลขยะได้อย่างไร?

คิดถึงวิธีที่คุณตรวจพบสแปม อย่างรวดเร็วมักจะเพียงพอ คุณรู้ว่าสแปมมีลักษณะอย่างไรและคุณรู้ว่าจดหมายดีมีลักษณะอย่างไร

ความน่าจะเป็นของสแปมที่มองว่าเป็นจดหมายที่ดีอยู่ที่ประมาณศูนย์

ตัวกรองเนื้อหาที่ให้คะแนนไม่ปรับเปลี่ยน

การกรองสแปมอัตโนมัติจะทำงานได้เช่นเดียวกันหรือไม่?

การทำคะแนนตัวกรองสแปมที่ใช้เนื้อหาช่วยให้ลองทำเช่นนั้น พวกเขามองหาคำและลักษณะอื่น ๆ ทั่วไปของสแปม องค์ประกอบทุกอย่างได้รับมอบหมายคะแนนและคะแนนสแปมสำหรับข้อความทั้งหมดจะคำนวณจากคะแนนแต่ละส่วน ตัวกรองคะแนนบางตัวยังมองหาลักษณะเฉพาะของจดหมายที่ถูกต้องโดยลดคะแนนสุดท้ายของข้อความ

วิธีการใช้ตัวกรองคะแนนไม่ทำงาน แต่ก็มีข้อบกพร่องหลายประการ:

  • รายการลักษณะถูกสร้างขึ้นจากสแปม (และอีเมลที่ดี) ที่วิศวกรของตัวกรองระบุ เพื่อให้เข้าใจถึงสแปมทั่วไปที่ทุกคนอาจได้รับอีเมลต้องเก็บรวบรวมที่อยู่อีเมลหลายร้อยฉบับ นี้ลดลงประสิทธิภาพของตัวกรองโดยเฉพาะอย่างยิ่งเพราะ ลักษณะของอีเมลที่ดีจะแตกต่างกันสำหรับแต่ละคน แต่ไม่ได้นำมาพิจารณา
  • ลักษณะที่มองหามีมากหรือน้อย ตั้งอยู่ในหิน . หากผู้ส่งอีเมลขยะพยายามปรับตัว (และทำให้สแปมดูดีเช่นจดหมายที่ส่งไปยังตัวกรอง) ลักษณะการกรองจะต้องมีการปรับแต่งด้วยตนเองซึ่งเป็นความพยายามที่ยิ่งใหญ่กว่า
  • คะแนนที่กำหนดให้กับแต่ละคำอาจขึ้นอยู่กับการประมาณการที่ดี แต่ก็ยังคงเป็นข้อ และเช่นเดียวกับรายการคุณลักษณะจะไม่ปรับเปลี่ยนรูปแบบของสแปมโดยทั่วไปหรือเพื่อสนองความต้องการของผู้ใช้แต่ละราย

ตัวกรองจดหมายขยะ Bayesian ปรับแต่งตัวเองให้ดีขึ้นเรื่อย ๆ

ตัวกรองสแปม Bayesian ยังเป็นตัวกรองเนื้อหาที่ใช้ตัวกรองด้วย วิธีการของพวกเขาไม่ไปกับปัญหาของตัวกรองสแปมที่ให้คะแนนอย่างง่ายแม้ว่าและมันไม่ให้รุนแรง เนื่องจากจุดอ่อนของตัวกรองคะแนนอยู่ในรายชื่อลักษณะและคะแนนของตนเองรายการนี้จึงถูกตัดออก

ตัวกรองสแปมแบบ Bayesian สร้างรายชื่อด้วยตัวเอง คุณจะเริ่มต้นด้วย (ขนาดใหญ่) อีเมลที่คุณจำแนกเป็นสแปมและอีกหนึ่งจดหมายดีๆ ตัวกรองจะพิจารณาทั้งสองอย่างและวิเคราะห์จดหมายที่ถูกต้องรวมทั้งสแปมเพื่อคำนวณความน่าจะเป็นของลักษณะต่างๆที่ปรากฏในสแปมและในจดหมายที่ดี

ตัวกรองสแปมแบบ Bayesian ตรวจสอบอีเมลอย่างไร

ลักษณะตัวกรองสแปม Bayesian สามารถดูได้:

  • คำพูดในเนื้อหาของข้อความแน่นอนและ
  • ส่วนหัวของมัน (ผู้ส่งและเส้นทางข้อความเช่น!) แต่ยัง
  • ด้านอื่น ๆ เช่นโค้ด HTML / CSS (เช่นสีและการจัดรูปแบบอื่น ๆ ) หรือแม้แต่
  • คู่คำวลีและ
  • ข้อมูลเมตา (ตัวอย่างเช่นวลีที่ปรากฏตัวอย่างเช่น)

หากคำว่า "คาร์ทีเซียน" ไม่ปรากฏในสแปม แต่บ่อยครั้งในอีเมลที่คุณได้รับตามกฎหมายความน่าจะเป็นว่า "คาร์ทีเซียน" ระบุว่าสแปมอยู่ใกล้ศูนย์ "โทนเนอร์" ตรงกันข้ามปรากฏเฉพาะและบ่อยครั้งในสแปม "ผงหมึก" มีความเป็นไปได้สูงที่จะถูกพบในสแปมซึ่งไม่ต่ำกว่า 1 (100%)

เมื่อมีข้อความใหม่มาถึงจะมีการวิเคราะห์โดยใช้ตัวกรองจดหมายขยะ Bayesian และความเป็นไปได้ที่ข้อความทั้งหมดจะเป็นสแปมจะถูกคำนวณโดยใช้ลักษณะเฉพาะ

สมมติว่าข้อความมีทั้ง "Cartesian" และ "toner" จากคำเหล่านี้เพียงอย่างเดียวยังไม่ชัดเจนว่าเรามีสแปมหรือจดหมาย legit หรือไม่ ลักษณะอื่น ๆ (หวังและน่าจะเป็นมากที่สุด) บ่งบอกถึงความเป็นไปได้ที่จะช่วยให้ตัวกรองสามารถจัดประเภทข้อความเป็นสแปมหรืออีเมลที่ดีได้

ตัวกรองจดหมายขยะของ Bayesian สามารถเรียนรู้โดยอัตโนมัติ

ขณะนี้เรามีการจำแนกแล้วข้อความสามารถใช้ในการฝึกตัวกรองต่อไปได้ ในกรณีนี้อาจมีการลดความเป็นไปได้ที่ "คาร์ทีเซียน" ที่ระบุอีเมลที่ดีจะลดลง (ถ้าข้อความที่มีทั้ง "Cartesian" และ "toner" พบว่าเป็นสแปม) หรือความเป็นไปได้ที่ "ผงหมึก" ที่ระบุว่าเป็นสแปมต้องได้รับการพิจารณาใหม่

การใช้เทคนิคการปรับตัวอัตโนมัตินี้ตัวกรองแบบเบส์สามารถทำได้ เรียนรู้จากทั้งตัวเองและการตัดสินใจของผู้ใช้ (ถ้าเธอแก้ไขข้อผิดพลาดโดยตัวกรองด้วยตนเอง) ความสามารถในการปรับตัวของการกรอง Bayesian ช่วยให้มั่นใจได้ว่ามีประสิทธิภาพมากที่สุดสำหรับผู้ใช้อีเมลแต่ละราย แม้ว่าสแปมของผู้คนส่วนใหญ่อาจมีลักษณะคล้ายคลึงกัน แต่จดหมายที่ถูกต้องมีลักษณะแตกต่างกันสำหรับทุกคน

ผู้ส่งอีเมลขยะสามารถรับตัวกรองแบบเบส์ได้อย่างไร?

ลักษณะของอีเมลที่ถูกต้องมีความสำคัญสำหรับขั้นตอนการกรองสแปมแบบเบส์เช่นเดียวกับสแปม หากตัวกรองได้รับการฝึกอบรมโดยเฉพาะสำหรับผู้ใช้ทุกคนผู้ส่งอีเมลขยะจะมีเวลาที่ต้องทำงานกับตัวกรองจดหมายขยะของทุกคน (หรือแม้แต่คนส่วนใหญ่) และตัวกรองสามารถปรับให้เหมาะกับผู้ส่งอีเมลขยะเกือบทุกอย่างได้

ผู้ส่งอีเมลขยะจะทำให้ผ่านตัวกรอง Bayesian ที่ผ่านการฝึกอบรมมาอย่างดีหากพวกเขาทำให้ข้อความสแปมของตนดูสมบูรณ์เหมือนกับอีเมลทั่วไปที่ทุกคนอาจได้รับ

ผู้ส่งอีเมลขยะมักไม่ส่งอีเมลธรรมดาดังกล่าว สมมติว่านี่เป็นเพราะอีเมลเหล่านี้ไม่ทำงานเป็นอีเมลขยะดังนั้นโอกาสที่พวกเขาจะไม่ทำเมื่ออีเมลธรรมดาน่าเบื่อเป็นวิธีเดียวที่จะทำให้ตัวกรองสแปมที่ผ่านมา

หากผู้ส่งอีเมลขยะเปลี่ยนไปใช้อีเมลที่ดูธรรมดาส่วนใหญ่ แต่เราจะเห็นสแปมจำนวนมากในกล่องจดหมายของเราอีกครั้งและอีเมลอาจกลายเป็นเรื่องที่น่าผิดหวังเหมือนกับที่อยู่ในช่วงก่อนเทศกาลเบส์ (หรือแย่กว่านั้น) นอกจากนี้ยังมีการทำลายตลาดสำหรับสแปมส่วนใหญ่ด้วยเช่นกันซึ่งจะไม่เกิดขึ้นนาน

ตัวบ่งชี้ที่แข็งแกร่งสามารถเป็น Achilles 'Heel ของสแปมกรองของ Bayesian Spam Filter

ยกเว้นอย่างใดอย่างหนึ่งที่สามารถรับรู้ได้สำหรับผู้ส่งอีเมลขยะที่ทำงานผ่านทางตัวกรองแบบเบส์แม้จะมีเนื้อหาตามปกติ อยู่ในลักษณะของสถิติ Bayesian ว่าคำหรือลักษณะเฉพาะที่ปรากฏบ่อยๆในจดหมายที่ดีอาจมีความสำคัญมากจนทำให้ข้อความใด ๆ ดูเหมือนว่าสแปมจะถูกจัดอันดับเป็นตัวกรองแฮมโดยตัวกรอง

หากผู้ส่งอีเมลขยะหาวิธีตรวจสอบคำที่เป็นอีเมลที่มีการใช้งานโดยใช้การส่งคืน HTML เพื่อดูว่าข้อความใดที่คุณเปิดตัวอย่างเช่นอาจมีคนส่งอีเมลขยะดังกล่าวอยู่ในอีเมลขยะและเข้าถึงคุณได้แม้กระทั่งผ่านทางอีเมลที่ดี Bayesian กรองผ่านการฝึกอบรม

John Graham-Cumming พยายามนี้โดยอนุญาตให้ตัวกรอง Bayesian สองตัวทำงานร่วมกันซึ่งเป็น "ไม่ดี" ที่ปรับตัวให้เข้ากับข้อความที่พบผ่านตัวกรอง "ดี" เขาบอกว่ามันทำงานแม้ว่ากระบวนการนี้ใช้เวลาและซับซ้อน เราไม่คิดว่าเราจะเห็นสิ่งที่เกิดขึ้นนี้อย่างน้อยไม่ใช่ในขนาดใหญ่และไม่เหมาะกับลักษณะเฉพาะของอีเมลของแต่ละบุคคล ผู้ส่งอีเมลขยะอาจพยายามหาคำหลักบางคำสำหรับองค์กร (เช่น "Almaden" สำหรับบางคนที่ IBM อาจจะ) แทน

โดยปกติแล้วสแปมจะมีความแตกต่างจากจดหมายทั่วไปเสมอไปหรือจะไม่ใช่สแปมก็ตาม

บรรทัดล่าง: ความสามารถในการกรองของ Bayesian อาจเป็นจุดอ่อนของมัน

ตัวกรองสแปม Bayesian อยู่ตัวกรองตามเนื้อหา ที่:

  • เป็นได้รับการฝึกอบรมโดยเฉพาะเพื่อรับรู้สแปมและอีเมลที่ดีของผู้ใช้อีเมลแต่ละรายทำให้พวกเขามีประสิทธิภาพและยากที่จะปรับตัวให้เข้ากับผู้ส่งอีเมลขยะ
  • สามารถอย่างต่อเนื่องและไม่มีความพยายามมากหรือการวิเคราะห์ด้วยตนเองปรับ กับเทคนิคล่าสุดของผู้ส่งสแปม
  • ใช้อีเมลที่ดีของผู้ใช้แต่ละรายและมีข้อมูลที่ดีอัตราที่ผิดพลาดต่ำ.
  • น่าเสียดายที่หากทำให้ความเชื่อถือในแอนตี้สแปมในตัวกรองแบบ Bayesian แสดงผลความผิดพลาดเป็นครั้งคราวยิ่งร้ายแรงมากขึ้น. ผลตรงข้ามของเชิงลบปลอม (สแปมที่มีลักษณะเหมือนกับจดหมายธรรมดา) มีศักยภาพในการรบกวนและทำให้ผู้ใช้หลงลืม