Skip to main content

การทำเหมืองข้อมูลด้วย K-Means Clustering

Cluster Analysis - กรณีกลุ่มตัวอย่างขนาดใหญ่ (K-means Cluster Analysis) (มิถุนายน 2026)

Cluster Analysis - กรณีกลุ่มตัวอย่างขนาดใหญ่ (K-means Cluster Analysis) (มิถุนายน 2026)
Anonim

K- หมายถึงอัลกอริทึมการจัดกลุ่มเป็นเครื่องมือการเรียนรู้ข้อมูลและเครื่องมือการเรียนรู้ด้วยเครื่องจักรที่ใช้ในการสังเกตการณ์กลุ่มเป็นกลุ่มของการสังเกตที่เกี่ยวข้องโดยไม่มีความรู้ก่อน ๆ เกี่ยวกับความสัมพันธ์เหล่านั้น โดยการสุ่มตัวอย่างอัลกอริธึมจะพยายามแสดงให้เห็นว่าในหมวดหมู่หรือกลุ่มข้อมูลใดที่มีจำนวนกลุ่มที่กำหนดโดยค่า k

K- หมายถึงอัลกอริทึมเป็นหนึ่งในเทคนิคการจัดกลุ่มที่ง่ายที่สุดและมักใช้ในการถ่ายภาพทางการแพทย์ชีวภาพและสาขาที่เกี่ยวข้อง ประโยชน์จาก K- หมายถึงการจัดกลุ่มเป็นข้อมูลที่บอกเกี่ยวกับข้อมูลของคุณ (โดยใช้แบบฟอร์มที่ไม่ได้รับการยกเว้น) แทนที่จะต้องให้คำแนะนำเกี่ยวกับอัลกอริทึมเกี่ยวกับข้อมูลในตอนเริ่มต้น (ใช้แบบฟอร์มที่มีการดูแลของอัลกอริทึม)

บางครั้งเรียกว่า Lloyd's Algorithm โดยเฉพาะในวงการวิทยาศาสตร์คอมพิวเตอร์เนื่องจากขั้นตอนวิธีมาตรฐานเป็นครั้งแรกโดย Stuart Lloyd ในปีพ. ศ. 2500 คำว่า "k-means" ได้รับการประกาศเกียรติคุณในปี 1967 โดย James McQueen

วิธีการทำงานของ K-Means Algorithm

K- หมายถึงอัลกอริธึมเป็นอัลกอริทึมวิวัฒนาการที่ได้รับชื่อจากวิธีการดำเนินการ การสังเกตการณ์กลุ่มอัลกอริทึมเข้ามา k กลุ่มที่ k เป็นพารามิเตอร์อินพุท จากนั้นจะกำหนดการสังเกตการณ์แต่ละกลุ่มตามความใกล้เคียงของการสังเกตการณ์กับค่าเฉลี่ยของคลัสเตอร์ ค่าเฉลี่ยของกลุ่มจะถูกคำนวณใหม่และกระบวนการจะเริ่มขึ้นอีกครั้ง นี่คือขั้นตอนวิธีการทำงาน:

  1. อัลกอริทึมเลือกโดยพลการ k จุดเป็นศูนย์คลัสเตอร์เริ่มต้น (หมายถึง)
  2. แต่ละจุดในชุดข้อมูลจะถูกกำหนดให้กับคลัสเตอร์แบบปิดตามระยะทางยุคลิดระหว่างแต่ละจุดและแต่ละศูนย์ของคลัสเตอร์
  3. ศูนย์ข้อมูลคลัสเตอร์แต่ละรายการถูกคำนวณเป็นค่าเฉลี่ยของจุดในคลัสเตอร์นั้น
  4. ขั้นตอนที่ 2 และ 3 ซ้ำจนกว่ากลุ่มจะมาบรรจบกัน การรวมกันอาจมีการกำหนดขึ้นอยู่กับการใช้งานโดยปกติ แต่โดยปกติแล้วจะไม่มีการเปลี่ยนแปลงใด ๆ ในกรณีที่ทำซ้ำขั้นตอนที่ 2 และ 3 หรือการเปลี่ยนแปลงนี้ไม่ได้ทำให้เกิดความแตกต่างในความหมายของคลัสเตอร์

การเลือกจำนวนกลุ่ม

หนึ่งในข้อเสียหลักของ K- หมายถึงการจัดกลุ่มเป็นความจริงที่ว่าคุณต้องระบุจำนวนของกลุ่มเป็นข้อมูลเข้าในอัลกอริทึม ตามที่ออกแบบมาอัลกอริทึมไม่สามารถระบุจำนวนกลุ่มที่เหมาะสมและขึ้นอยู่กับผู้ใช้ในการระบุกลุ่มนี้ล่วงหน้า

ตัวอย่างเช่นถ้าคุณมีกลุ่มคนที่จะคลัสเตอร์ตามอัตลักษณ์ทางเพศแบบไบนารีเป็นเพศชายหรือเพศหญิงโทร K- หมายถึงขั้นตอนการใช้ input k = 3 จะบังคับให้ผู้คนออกเป็นสามกลุ่มเมื่อมีเพียงสองหรือข้อมูลของ k = 2 จะให้พอดีกับธรรมชาติมากขึ้น

ในทำนองเดียวกันถ้ากลุ่มของบุคคลได้รับการจัดกลุ่มได้อย่างง่ายดายขึ้นอยู่กับสถานะบ้านและคุณเรียกว่า K- หมายถึงอัลกอริธึมกับอินพุท K = 20 ผลลัพธ์อาจเป็นนัยทั่วไปเกินไปที่จะมีประสิทธิภาพ

ด้วยเหตุนี้การทดลองกับค่าที่ต่างกันจึงมักเป็นความคิดที่ดี k เพื่อระบุค่าที่เหมาะสมกับข้อมูลของคุณมากที่สุด นอกจากนี้คุณยังอาจต้องการสำรวจการใช้ขั้นตอนวิธีการทำเหมืองข้อมูลอื่น ๆ ในการแสวงหาความรู้ที่เรียนรู้ด้วยเครื่อง