ตัวกรองสแปม Bayesian คำนวณความน่าจะเป็นของข้อความที่เป็นสแปมตามเนื้อหา การกรองสแปมแบบ Bayesian จะเรียนรู้จากสแปมและจากอีเมลที่ดีทำให้ไม่ต้องใช้ตัวกรองเนื้อหาแบบง่ายๆการกรองสแปมแบบเบส์จะช่วยให้สามารถใช้งานการป้องกันสแปมที่มีประสิทธิภาพและสามารถปรับใช้ได้อย่างมีประสิทธิภาพ
คุณรับรู้อีเมลขยะได้อย่างไร?
คิดถึงวิธีที่คุณตรวจพบสแปม อย่างรวดเร็วมักจะเพียงพอ คุณรู้ว่าสแปมมีลักษณะอย่างไรและคุณรู้ว่าจดหมายดีมีลักษณะอย่างไร
ความน่าจะเป็นของสแปมที่มองว่าเป็นจดหมายที่ดีอยู่ที่ประมาณศูนย์
ตัวกรองเนื้อหาที่ให้คะแนนไม่ปรับเปลี่ยน
การกรองสแปมอัตโนมัติจะทำงานได้เช่นเดียวกันหรือไม่?
การทำคะแนนตัวกรองสแปมที่ใช้เนื้อหาช่วยให้ลองทำเช่นนั้น พวกเขามองหาคำและลักษณะอื่น ๆ ทั่วไปของสแปม องค์ประกอบทุกอย่างได้รับมอบหมายคะแนนและคะแนนสแปมสำหรับข้อความทั้งหมดจะคำนวณจากคะแนนแต่ละส่วน ตัวกรองคะแนนบางตัวยังมองหาลักษณะเฉพาะของจดหมายที่ถูกต้องโดยลดคะแนนสุดท้ายของข้อความ
วิธีการใช้ตัวกรองคะแนนไม่ทำงาน แต่ก็มีข้อบกพร่องหลายประการ:
- รายการลักษณะถูกสร้างขึ้นจากสแปม (และอีเมลที่ดี) ที่วิศวกรของตัวกรองระบุ เพื่อให้เข้าใจถึงสแปมทั่วไปที่ทุกคนอาจได้รับอีเมลต้องเก็บรวบรวมที่อยู่อีเมลหลายร้อยฉบับ นี้ลดลงประสิทธิภาพของตัวกรองโดยเฉพาะอย่างยิ่งเพราะ ลักษณะของอีเมลที่ดีจะแตกต่างกันสำหรับแต่ละคน แต่ไม่ได้นำมาพิจารณา
- ลักษณะที่มองหามีมากหรือน้อย ตั้งอยู่ในหิน . หากผู้ส่งอีเมลขยะพยายามปรับตัว (และทำให้สแปมดูดีเช่นจดหมายที่ส่งไปยังตัวกรอง) ลักษณะการกรองจะต้องมีการปรับแต่งด้วยตนเองซึ่งเป็นความพยายามที่ยิ่งใหญ่กว่า
- คะแนนที่กำหนดให้กับแต่ละคำอาจขึ้นอยู่กับการประมาณการที่ดี แต่ก็ยังคงเป็นข้อ และเช่นเดียวกับรายการคุณลักษณะจะไม่ปรับเปลี่ยนรูปแบบของสแปมโดยทั่วไปหรือเพื่อสนองความต้องการของผู้ใช้แต่ละราย
ตัวกรองจดหมายขยะ Bayesian ปรับแต่งตัวเองให้ดีขึ้นเรื่อย ๆ
ตัวกรองสแปม Bayesian ยังเป็นตัวกรองเนื้อหาที่ใช้ตัวกรองด้วย วิธีการของพวกเขาไม่ไปกับปัญหาของตัวกรองสแปมที่ให้คะแนนอย่างง่ายแม้ว่าและมันไม่ให้รุนแรง เนื่องจากจุดอ่อนของตัวกรองคะแนนอยู่ในรายชื่อลักษณะและคะแนนของตนเองรายการนี้จึงถูกตัดออก
ตัวกรองสแปมแบบ Bayesian สร้างรายชื่อด้วยตัวเอง คุณจะเริ่มต้นด้วย (ขนาดใหญ่) อีเมลที่คุณจำแนกเป็นสแปมและอีกหนึ่งจดหมายดีๆ ตัวกรองจะพิจารณาทั้งสองอย่างและวิเคราะห์จดหมายที่ถูกต้องรวมทั้งสแปมเพื่อคำนวณความน่าจะเป็นของลักษณะต่างๆที่ปรากฏในสแปมและในจดหมายที่ดี
ตัวกรองสแปมแบบ Bayesian ตรวจสอบอีเมลอย่างไร
ลักษณะตัวกรองสแปม Bayesian สามารถดูได้:
- คำพูดในเนื้อหาของข้อความแน่นอนและ
- ส่วนหัวของมัน (ผู้ส่งและเส้นทางข้อความเช่น!) แต่ยัง
- ด้านอื่น ๆ เช่นโค้ด HTML / CSS (เช่นสีและการจัดรูปแบบอื่น ๆ ) หรือแม้แต่
- คู่คำวลีและ
- ข้อมูลเมตา (ตัวอย่างเช่นวลีที่ปรากฏตัวอย่างเช่น)
หากคำว่า "คาร์ทีเซียน" ไม่ปรากฏในสแปม แต่บ่อยครั้งในอีเมลที่คุณได้รับตามกฎหมายความน่าจะเป็นว่า "คาร์ทีเซียน" ระบุว่าสแปมอยู่ใกล้ศูนย์ "โทนเนอร์" ตรงกันข้ามปรากฏเฉพาะและบ่อยครั้งในสแปม "ผงหมึก" มีความเป็นไปได้สูงที่จะถูกพบในสแปมซึ่งไม่ต่ำกว่า 1 (100%)
เมื่อมีข้อความใหม่มาถึงจะมีการวิเคราะห์โดยใช้ตัวกรองจดหมายขยะ Bayesian และความเป็นไปได้ที่ข้อความทั้งหมดจะเป็นสแปมจะถูกคำนวณโดยใช้ลักษณะเฉพาะ
สมมติว่าข้อความมีทั้ง "Cartesian" และ "toner" จากคำเหล่านี้เพียงอย่างเดียวยังไม่ชัดเจนว่าเรามีสแปมหรือจดหมาย legit หรือไม่ ลักษณะอื่น ๆ (หวังและน่าจะเป็นมากที่สุด) บ่งบอกถึงความเป็นไปได้ที่จะช่วยให้ตัวกรองสามารถจัดประเภทข้อความเป็นสแปมหรืออีเมลที่ดีได้
ตัวกรองจดหมายขยะของ Bayesian สามารถเรียนรู้โดยอัตโนมัติ
ขณะนี้เรามีการจำแนกแล้วข้อความสามารถใช้ในการฝึกตัวกรองต่อไปได้ ในกรณีนี้อาจมีการลดความเป็นไปได้ที่ "คาร์ทีเซียน" ที่ระบุอีเมลที่ดีจะลดลง (ถ้าข้อความที่มีทั้ง "Cartesian" และ "toner" พบว่าเป็นสแปม) หรือความเป็นไปได้ที่ "ผงหมึก" ที่ระบุว่าเป็นสแปมต้องได้รับการพิจารณาใหม่
การใช้เทคนิคการปรับตัวอัตโนมัตินี้ตัวกรองแบบเบส์สามารถทำได้ เรียนรู้จากทั้งตัวเองและการตัดสินใจของผู้ใช้ (ถ้าเธอแก้ไขข้อผิดพลาดโดยตัวกรองด้วยตนเอง) ความสามารถในการปรับตัวของการกรอง Bayesian ช่วยให้มั่นใจได้ว่ามีประสิทธิภาพมากที่สุดสำหรับผู้ใช้อีเมลแต่ละราย แม้ว่าสแปมของผู้คนส่วนใหญ่อาจมีลักษณะคล้ายคลึงกัน แต่จดหมายที่ถูกต้องมีลักษณะแตกต่างกันสำหรับทุกคน
ผู้ส่งอีเมลขยะสามารถรับตัวกรองแบบเบส์ได้อย่างไร?
ลักษณะของอีเมลที่ถูกต้องมีความสำคัญสำหรับขั้นตอนการกรองสแปมแบบเบส์เช่นเดียวกับสแปม หากตัวกรองได้รับการฝึกอบรมโดยเฉพาะสำหรับผู้ใช้ทุกคนผู้ส่งอีเมลขยะจะมีเวลาที่ต้องทำงานกับตัวกรองจดหมายขยะของทุกคน (หรือแม้แต่คนส่วนใหญ่) และตัวกรองสามารถปรับให้เหมาะกับผู้ส่งอีเมลขยะเกือบทุกอย่างได้
ผู้ส่งอีเมลขยะจะทำให้ผ่านตัวกรอง Bayesian ที่ผ่านการฝึกอบรมมาอย่างดีหากพวกเขาทำให้ข้อความสแปมของตนดูสมบูรณ์เหมือนกับอีเมลทั่วไปที่ทุกคนอาจได้รับ
ผู้ส่งอีเมลขยะมักไม่ส่งอีเมลธรรมดาดังกล่าว สมมติว่านี่เป็นเพราะอีเมลเหล่านี้ไม่ทำงานเป็นอีเมลขยะดังนั้นโอกาสที่พวกเขาจะไม่ทำเมื่ออีเมลธรรมดาน่าเบื่อเป็นวิธีเดียวที่จะทำให้ตัวกรองสแปมที่ผ่านมา
หากผู้ส่งอีเมลขยะเปลี่ยนไปใช้อีเมลที่ดูธรรมดาส่วนใหญ่ แต่เราจะเห็นสแปมจำนวนมากในกล่องจดหมายของเราอีกครั้งและอีเมลอาจกลายเป็นเรื่องที่น่าผิดหวังเหมือนกับที่อยู่ในช่วงก่อนเทศกาลเบส์ (หรือแย่กว่านั้น) นอกจากนี้ยังมีการทำลายตลาดสำหรับสแปมส่วนใหญ่ด้วยเช่นกันซึ่งจะไม่เกิดขึ้นนาน
ตัวบ่งชี้ที่แข็งแกร่งสามารถเป็น Achilles 'Heel ของสแปมกรองของ Bayesian Spam Filter
ยกเว้นอย่างใดอย่างหนึ่งที่สามารถรับรู้ได้สำหรับผู้ส่งอีเมลขยะที่ทำงานผ่านทางตัวกรองแบบเบส์แม้จะมีเนื้อหาตามปกติ อยู่ในลักษณะของสถิติ Bayesian ว่าคำหรือลักษณะเฉพาะที่ปรากฏบ่อยๆในจดหมายที่ดีอาจมีความสำคัญมากจนทำให้ข้อความใด ๆ ดูเหมือนว่าสแปมจะถูกจัดอันดับเป็นตัวกรองแฮมโดยตัวกรอง
หากผู้ส่งอีเมลขยะหาวิธีตรวจสอบคำที่เป็นอีเมลที่มีการใช้งานโดยใช้การส่งคืน HTML เพื่อดูว่าข้อความใดที่คุณเปิดตัวอย่างเช่นอาจมีคนส่งอีเมลขยะดังกล่าวอยู่ในอีเมลขยะและเข้าถึงคุณได้แม้กระทั่งผ่านทางอีเมลที่ดี Bayesian กรองผ่านการฝึกอบรม
John Graham-Cumming พยายามนี้โดยอนุญาตให้ตัวกรอง Bayesian สองตัวทำงานร่วมกันซึ่งเป็น "ไม่ดี" ที่ปรับตัวให้เข้ากับข้อความที่พบผ่านตัวกรอง "ดี" เขาบอกว่ามันทำงานแม้ว่ากระบวนการนี้ใช้เวลาและซับซ้อน เราไม่คิดว่าเราจะเห็นสิ่งที่เกิดขึ้นนี้อย่างน้อยไม่ใช่ในขนาดใหญ่และไม่เหมาะกับลักษณะเฉพาะของอีเมลของแต่ละบุคคล ผู้ส่งอีเมลขยะอาจพยายามหาคำหลักบางคำสำหรับองค์กร (เช่น "Almaden" สำหรับบางคนที่ IBM อาจจะ) แทน
โดยปกติแล้วสแปมจะมีความแตกต่างจากจดหมายทั่วไปเสมอไปหรือจะไม่ใช่สแปมก็ตาม
บรรทัดล่าง: ความสามารถในการกรองของ Bayesian อาจเป็นจุดอ่อนของมัน
ตัวกรองสแปม Bayesian อยู่ตัวกรองตามเนื้อหา ที่:
- เป็นได้รับการฝึกอบรมโดยเฉพาะเพื่อรับรู้สแปมและอีเมลที่ดีของผู้ใช้อีเมลแต่ละรายทำให้พวกเขามีประสิทธิภาพและยากที่จะปรับตัวให้เข้ากับผู้ส่งอีเมลขยะ
- สามารถอย่างต่อเนื่องและไม่มีความพยายามมากหรือการวิเคราะห์ด้วยตนเองปรับ กับเทคนิคล่าสุดของผู้ส่งสแปม
- ใช้อีเมลที่ดีของผู้ใช้แต่ละรายและมีข้อมูลที่ดีอัตราที่ผิดพลาดต่ำ.
- น่าเสียดายที่หากทำให้ความเชื่อถือในแอนตี้สแปมในตัวกรองแบบ Bayesian แสดงผลความผิดพลาดเป็นครั้งคราวยิ่งร้ายแรงมากขึ้น. ผลตรงข้ามของเชิงลบปลอม (สแปมที่มีลักษณะเหมือนกับจดหมายธรรมดา) มีศักยภาพในการรบกวนและทำให้ผู้ใช้หลงลืม