ฺBaidu ประกาศความสำเร็จในการพัฒนา Deep Speech ระบบจดจำเสียงที่ใช้โครงสร้าง deep learning เข้ามาเรียนรู้เสียงจากโลกความเป็นจริงทำได้สามารถจด จำเสียงได้อย่างแม่นยำ
Andrew Ng ระบุว่างานวิจัย Deep Speech นี้สามารถฟังข้อความได้ถูกต้องแม้จะอยู่ในพื้นที่ที่ มีเสียงรบกวนสูง รวมถึงพื้นที่ที่ระบบจดจำเสียงทุกวันนี้ไม่สามารถฟัง ข้อความเข้าใจได้ โดยเขาทดสอบกับระบบที่มีอยู่ในตลาด รวมถึง Google API, Apple Dictation, และ Baidu Speech เอง ระบบ Deep Speech นี้สามารถทำงานได้ดีว่าทุกระบบ
ทีมงานใช้เสียงที่บันทึกจากคน 9,600 คน รวมทั้งหมด 7,000 ชั่วโมง จากนั้นจึงใส่เสียงรบกวนเข้าไปในเสียงด้วยรูปแบบต่าง ๆ ทำให้ได้ข้อมูลถึง 100,000 ชั่วโมง จากนั้นให้ซอฟต์แวร์เรียนรู้จากข้อมูลที่ใส่เข้าไป โดยซอฟต์แวร์ deep learning ทำงานบนชิปกราฟิก มีความสามารถในการกระจายโหลดออกไปให้ประมวลผลขนานกัน ได้ (scalable)
Andrew ระบุว่ายังบอกไม่ได้แน่ชัดว่าระบบ Deep Speech นี้จะให้บริการจริงได้เมื่อไหร่ แต่เมื่อนักข่าวถามว่าต้องรอเป็นปีเลยไหม เขาตอบว่า "ไม่หรอก" ("Jesus Christ no!")
ที่มา - Forbes, Facebook: Andrew Ng

Baidu, Research, Speech Recognition




อ่านต่อ...