การรู้จำตัวอักษรออฟติคอล (OCR) หมายถึงซอฟต์แวร์ที่สร้างเอกสารดิจิทัลของเอกสารพิมพ์พิมพ์หรือเขียนด้วยลายมือที่คอมพิวเตอร์สามารถอ่านได้โดยไม่จำเป็นต้องพิมพ์หรือป้อนข้อความด้วยตัวเอง OCR ใช้ทั่วไปในเอกสารที่สแกนในรูปแบบ PDF แต่ยังสามารถสร้างข้อความในรูปแบบที่อ่านได้ด้วยคอมพิวเตอร์ภายในไฟล์รูปภาพ
OCR คืออะไร?
OCR หรือที่เรียกว่าการจดจำข้อความคือเทคโนโลยีซอฟต์แวร์ที่แปลงตัวอักษรเช่นตัวเลขตัวอักษรและเครื่องหมายวรรคตอน (หรือที่เรียกว่า glyphs) จากเอกสารที่พิมพ์หรือเขียนลงในรูปแบบอิเล็กทรอนิกส์ซึ่งเป็นที่รู้จักและอ่านได้ง่ายขึ้นโดยคอมพิวเตอร์และโปรแกรมซอฟต์แวร์อื่น ๆ บางโปรแกรม OCR ทำเช่นนี้ในฐานะเอกสารถูกสแกนหรือถ่ายภาพด้วยกล้องดิจิทัลและอื่น ๆ สามารถใช้กระบวนการนี้กับเอกสารที่เคยสแกนหรือถ่ายภาพโดยไม่ใช้ OCR OCR ช่วยให้ผู้ใช้สามารถค้นหาเอกสาร PDF แก้ไขข้อความและจัดรูปแบบเอกสารได้อีกครั้ง
ใช้ OCR อะไรสำหรับ?
สำหรับการสแกนอย่างรวดเร็วทุกวันต้องใช้ OCR ไม่อาจเป็นเรื่องใหญ่ หากคุณสแกนเป็นจำนวนมากความสามารถในการค้นหาไฟล์ PDF เพื่อหาข้อมูลที่คุณต้องการจะช่วยประหยัดเวลาได้มากและทำให้ฟังก์ชันการทำงาน OCR ในโปรแกรมสแกนเนอร์มีความสำคัญมากขึ้น นี่คือสิ่งอื่น ๆ ที่ OCR ช่วยในการ:
- การประมวลผลข้อมูลอัตโนมัติและการป้อนข้อมูล (ตัวอย่าง: ระบบการติดตามผู้สมัครงานเพื่อดำเนินการต่อ)
- การค้นหาหนังสือที่สแกนได้
- การแปลงการสแกนที่เขียนด้วยลายมือไปเป็นข้อความที่อ่านโดยคอมพิวเตอร์
- ทำให้เอกสารสามารถใช้งานได้โดยโปรแกรมอ่านหนังสือที่ช่วยผู้ใช้ที่มีความบกพร่องทางสายตา
- รักษาเอกสารและหนังสือพิมพ์ไว้ในขณะเดียวกันก็สามารถค้นหาได้
- การสกัดข้อมูลและการถ่ายโอนไปยังโปรแกรมบัญชี (ตัวอย่าง: ใบเสร็จรับเงินและใบแจ้งหนี้)
- เอกสารการจัดทำดัชนีสำหรับการใช้งานโดยเครื่องมือค้นหา
- การยอมรับแผ่นใบอนุญาตขับรถด้วยกล้องความเร็วและซอฟต์แวร์กล้องแสงสีแดง
- การสังเคราะห์เสียงสำหรับผู้ที่ไม่สามารถพูดได้ - นักฟิสิกส์ทฤษฎี Stephen Hawking อาจเป็นผู้ที่รู้จักกันดีที่สุดของโปรแกรมสังเคราะห์เสียงพูด
ใช้ OCR ทำไม?
ทำไมไม่ถ่ายรูปใช่มั้ย? เนื่องจากคุณจะไม่สามารถแก้ไขอะไรก็ได้หรือค้นหาข้อความเพราะเป็นเพียงภาพเท่านั้น การสแกนเอกสารและเรียกใช้ซอฟต์แวร์ OCR สามารถเปลี่ยนไฟล์นั้นเป็นไฟล์ที่คุณสามารถแก้ไขได้และสามารถค้นหาได้
ประวัติความเป็นมาของ OCR
แม้ว่าการใช้การรับรู้ข้อความในช่วงต้นถึง 1914 ถึง 1914 การพัฒนาและการใช้เทคโนโลยีที่เกี่ยวกับ OCR ได้เริ่มขึ้นอย่างจริงจังในปี 1950 โดยเฉพาะอย่างยิ่งกับการสร้างแบบอักษรที่เรียบง่ายซึ่งง่ายต่อการแปลงเป็นข้อความแบบดิจิทัลที่สามารถอ่านได้ แบบอักษรตัวแรกที่สร้างขึ้นโดย David Shepard และเป็นที่รู้จักกันทั่วไปว่า OCR-7B OCR-7B ยังคงใช้อยู่ในอุตสาหกรรมการเงินสำหรับแบบอักษรมาตรฐานที่ใช้กับบัตรเครดิตและบัตรเดบิต ในทศวรรษที่ 1960 บริการไปรษณีย์ในหลายประเทศเริ่มใช้เทคโนโลยี OCR เพื่อเพิ่มความเร็วในการจัดเรียงจดหมายรวมทั้งสหรัฐอเมริกาอังกฤษแคนาดาและเยอรมนี OCR ยังคงเป็นเทคโนโลยีหลักที่ใช้ในการจัดเรียงอีเมลสำหรับบริการไปรษณีย์ทั่วโลก ในปี 2000 ความรู้ที่สำคัญเกี่ยวกับขีด จำกัด และความสามารถของเทคโนโลยี OCR ถูกนำมาใช้เพื่อพัฒนาโปรแกรม CAPTCHA ที่ใช้เพื่อหยุดบอทและผู้ส่งอีเมลขยะ
กว่าทศวรรษที่ผ่านมา OCR ได้เติบโตขึ้นอย่างถูกต้องและซับซ้อนมากขึ้นเนื่องจากความก้าวหน้าในด้านเทคโนโลยีที่เกี่ยวข้องเช่นปัญญาประดิษฐ์การเรียนรู้ด้วยคอมพิวเตอร์และการมองเห็นคอมพิวเตอร์ วันนี้ซอฟต์แวร์ OCR ใช้การจดจำรูปแบบการตรวจหาคุณลักษณะและการทำเหมืองข้อความเพื่อแปลงเอกสารให้เร็วขึ้นและถูกต้องกว่าที่เคย