หน้าแรก > คอมพิวเตอร์, บ่นไปเรื่อย, เขียนตามกระแส > กาฝากอยากเล่า – เรื่องราวของ Voice Recognition ตอนที่ 2

กาฝากอยากเล่า – เรื่องราวของ Voice Recognition ตอนที่ 2

imageโดยส่วนตัวของผมแล้ว เรื่องราว Voice Recognition และ Voice Comprehension ที่ผมกำลังจะพูดถึงในบล็อกตอนนี้ เป็นเทคโนโลยีที่น่าสนใจ และอยากให้ท่านผู้อ่านได้ทำความรู้จักกันครับ เพราะในเร็วๆ นี้มันจะกลายเป็น HMI (Human Machine Interface) แบบใหม่ (ขออนุญาตใช้ศัพท์สูงหน่อย จริงๆ แล้ว HMI มันเป็นเรื่องเชิงอุตสาหกรรมมากกว่า แต่ผมว่ามันเอามาเรียกรวมในส่วนของ Consumer Product ได้เหมือนกันนะ) … โดยความเชื่อส่วนตัวของผม ถ้าเกิดเราเข้าใจถึงการทำงานของอะไรก็ตามแล้ว เราก็จะสามารถใช้งานมันได้อย่างมีประสิทธิภาพมากขึ้นครับ

image523222222222222222

แต่ก่อนที่จะเข้าสู่เรื่องของ Voice Recognition ก็ต้องขออุ้มไก่ให้กับผู้สนับสนุนหลักอย่างเป็นทางการของเว็บบล็อกนายกาฝากซะหน่อยนะครับ

  • Dell Thailand แนะนำ Dell Venue สมาร์ทโฟนระดับท็อป กับความสำเร็จเหนือชั้น ด้วยซีพียู 1GHz และระบบปฏิบัติการ Android 2.2 พร้อมกล้อง 8 ล้านพิกเซล รายละเอียดอ่าน ที่นี่เลย
  • อเด็คโก้ร่วมกู้วิกฤติแรงงาน ระดมงานสายอุตสาหกรรมเพื่อผู้ว่างงานกว่า 200 ตำแหน่ง รายละเอียดอ่านที่ http://www.adecco.co.th/jobs/Flooding-Crisis-Jobs.aspx เลยครับ

สำหรับคนที่ชอบติดตามข่าวสารในแวดวงไอที ตอนนี้ผมจัด YouTube Channel สำหรับเผยแพร่ข่าวสารแล้วครับ ติดตามได้ทาง http://www.youtube.com/user/kafaak ครับ ค้นหา “กาฝากน้อย ย่อยข่าว” ได้เลย

เอาล่ะ พอหอมปากหอมคอแล้ว ได้เวลาลุย!

 

ความน่าหลงไหลของเทคโนโลยี Voice Recognition สำหรับผู้ผลิต

ผมเคยเขียนบล็อกเรื่อง เมื่อแค่ Exclusive Content ไม่เพียงพออีกต่อไป เอาไว้ โดยเสนอว่าการสร้างจุดขายให้กับสินค้าด้วยแค่ Exclusive Content นั้นมันไม่เพียงพอแล้ว เพราะเอาเข้าจริงๆ เจ้า Content ที่เป็น Exclusive นี่มันไม่ได้อยู่ยั้งยืนยงตลอดไป ด้วย 2 เหตุผลหลักๆ คือ

  • เมื่อเวลาผ่านไป Content มันเก่า ไม่อัพเดต หรือมี Content อื่นๆ ที่น่าสนใจกว่าเกิดขึ้นมา ความเป็น Exclusive มันก็จะด้อยค่าลงไป
  • บ่อยครั้งที่สัญญาความเป็น Exclusive จะมีอายุกำหนดไว้ เช่น การที่ Capcom จะให้ Street Fighter มาลงบนสมาร์ทโฟนของ LG แบบ Exclusive แต่ก็จะจำกัดอยู่ที่ 3 เดือน หลังจากนั้นค่ายอื่นๆ ก็จะสามารถมี Street Fighter ได้เหมือนกัน

สิ่งที่แบรนด์ต่างๆ ต้องทำก็คือ การสร้าง Exclusive Experience ให้กับผู้ใช้งานมากกว่า ซึงถ้าใครอ่านหนังสือ Steve Jobs ของ Walter Isaacson ก็จะรู้ว่านี่คือปรัชญาที่อยู่เบื้องหลังของผลิตภัณฑ์ต่างๆ ที่ Steve Jobs คิดค้นขึ้นมา

เมื่อฮาร์ดแวร์ระดับ High-end กลายเป็นสิ่งที่มีให้เห็นกันอยู่ดาษดื่น ไม่ใช่อะไรที่จะสร้างความรู้สึก Exclusive Experience ให้กับผู้ใช้งานอีกต่อไป ถึงเวลาที่จะต้องหาอะไรใหม่ๆ ให้กับผู้ใช้งาน ซึ่งมันพาลให้นึกถึงตอนที่ Steve Jobs เปลี่ยนแปลงวงการคอมพิวเตอร์ ด้วยการนำ Graphical User Interface (GUI) มาสู่สายตาประชาชนผ่านทางเครื่อง Macintosh ในราวๆ ปี ค.ศ. 1984 … ถึงเวลาที่แบรนด์ต่างๆ ต้องมองหา User Interface ใหม่ๆ ให้กับผลิตภัณฑ์ของตัวเองซะแล้ว และ Voice Recognition ก็ถือว่าเป็นทางออกที่ดีทีเดียว เพราะนอกจากจะใช้สำหรับสั่งงานอุปกรณ์ได้เหมือน User Interface อื่นๆ ได้เท่าๆ กัน หรือบางครั้งก็ได้ดีกว่าอีกด้วย (เช่น การใช้งาน Google Translate นั้น ถ้าสั่งด้วยเสียงได้ก็จะสะดวกกว่าพิมพ์อีก)

image
ภาพจาก BBC Research

และนั่นก็ทำให้ธุรกิจที่เกี่ยวกับ Voice Recognition นั้นค่อนข้างสดใสทีเดียว อ้างอิงจาก BBC Research แล้วจะเห็นว่ามีการคาดการณ์ว่าในปี ค.ศ. 2015 จะมีการเติบโตในธุรกิจด้านนี้สูงมาก ทั้งในส่วนของฮาร์ดแวร์, ซอฟต์แวร์ และตัวอุปกรณ์เอง

 

Voice Comprehension ก้าวใหม่ของ Voice Recognition

imageผมพูดถึง Voice Comprehension เวลาที่ผมพูดถึง Siri ของ iPhone 4S ในบล็อกตอนที่แล้ว เชื่อว่าหลายๆ คนอาจจะยังงงอยู่ว่ามันคืออะไรใช่ไหมล่ะครับ … ลองนึกถึงวิธีการทำงานของ Voice Recognition ที่ผมพูดถึงไปในตอนที่ผ่านมาดูนะครับ หลักการหลักๆ จริงๆ คือ การแยกแยะเสียงออกเป็น Phonemes แล้วทำการเทียบเคียงกับคำต่างๆ ที่มีอยู่ในฐานข้อมูล

ขั้นตอนในการทำงานของการสั่งอุปกรณ์ด้วยเทคโนโลยี Voice Recognition อีกขั้นก็คือ การเทียบคำที่ได้มากับคำสั่งที่มีในฐานข้อมูล เช่น

  • จะโทรหาใคร ให้สั่งว่า Call แล้วตามด้วยชื่อ
  • จะส่ง SMS หาใคร ให้สั่งว่า Send SMS แล้วตามด้วยชื่อ
  • จะส่งอีเมล์หาใครให้สั่งว่า Send Email แล้วตามด้วยชื่อ
  • จะสร้างตารางนัดหมายให้สั่งว่า Create an event

หากคำสั่งที่พูดไปตรงกับชุดคำสั่งใดในฐานข้อมูล ตัวอุปกรณ์ก็จะทำงานตามที่ได้ถูกกำหนดเอาไว้นั่นเอง โดยมีการกำหนดชัดเจนเป็น

แต่ Voice Comprehension มันเป็นอะไรที่ก้าวข้ามจากตรงนั้นไปอีก โดยอาศัยสิ่งที่เรียกว่า ปัญญาประดิษฐ์ (Artificial Intelligence หรือ AI) เข้ามาช่วยในการประมวลผล เพื่อให้อุปกรณ์เข้าใจคำสั่งได้ดียิ่งขึ้นครับ … Siri ของ Apple iPhone 4S ถือเป็นตัวอย่างที่ดีของ Voice Comprehension ครับ

ความน่าเบื่ออย่างหนึ่งของ Voice Recognition ก็คือ การถูกตีกรอบจำกัดว่าจะต้องสั่งยังงั้นยังงี้ถึงจะทำตามคำสั่งได้ สำหรับผู้ใช้งานแล้วมันไม่ได้ให้ประสบการณ์ที่ดีเลย เพราะมันขัดกับหลักการทางด้านภาษาของเรา … ลองนึกถึงเวลาที่เราอยากจะเช็คตารางนัดหมายดูครับ ถ้าเราสั่งงานเลขาของเรา เราก็มีวิธีบอกตั้งหลายแบบ เช่น

  • เช็คตารางนัดหมายสัปดาห์หน้าให้หน่อย
  • สัปดาห์หน้ามีอะไรบ้าง?
  • ขอดูตารางนัดหมายสัปดาห์หน้าหน่อยสิ

เราอยากจะสามารถสั่งงานอุปกรณ์ต่างๆ ของเราได้แบบนี้อ่ะ ดังนั้นแค่ Voice Recognition มันไม่เพียงพอครับ ตรงนี้เองที่ทำให้ Voice Comprehension เหนือกว่า เพราะผู้ใช้งานไม่จำเป็นต้องถูกจำกัดไว้ด้วยรูปแบบการสั่งงานที่เฉพาะเจาะจง ด้วยปัญญาประดิษฐ์ ทำให้ซอฟต์แวร์สามารถวิเคราะห์รูปประโยคของคำพูด แล้วนำมาประมวลผลเพื่อตัดสินใจได้ว่าผู้ใช้งานต้องการอะไร เช่น

  • หากขึ้นต้นด้วย 5W1H (Who/What/Where/When/Why และ How) คือต้องการถามคำถาม ดังนั้นน่าจะเริ่มจากการค้นหาข้อมูลจากฐานข้อมูล หรือจาก Search Engine
  • หากขึ้นต้นด้วยคำกริยาต่างๆ คือการสั่งให้ทำงานอะไรบางอย่าง เช่น Call ก็คือโทรหาใครซักคน, Send a message คือส่งข้อความ เป็นต้น
  • คำนามบางคำอาจบอกให้ทราบถึงสิ่งที่ต้องการจะทราบ

อีกจุดสำคัญก็คือ ตัวซอฟต์แวร์มีคลังคำศัพท์ที่ใช้ทดแทนกันได้ ยกตัวอย่างเช่นถ้าผมอยากจะสั่งให้ Siri เช็คว่าตารางนัดหมายของผมในสัปดาห์หน้ามีอะไรบาง ผมก็สามารถเลือกสั่งได้หลากหลายทีเดียว เช่น See my appointment next week, What happened nextweek หรือจะแค่ Next week เฉยๆ ก็ได้ หรือแม้แต่บางครั้งที่ Siri อาจฟังผมผิดไปบ้าง เช่น เป็น Be my appointment next week แทน ก็ยังสามารถประมวลผลได้ถูก เพราะ Keyword สำคัญ (ในที่นี้คือ Next week) มันยังถูกต้องอยู่

Photo 26-11-2554, 9 01 33Photo 26-11-2554, 9 01 47Photo 26-11-2554, 9 01 57Photo 26-11-2554, 9 01 21

imageถามว่า Siri นี่สุดยอดแล้วหรือยัง? คำตอบของผมก็คือ “ยัง” ครับ แม้ว่า Siri จะแหกข้อจำกัดเรื่องการออกคำสั่งแล้ว แต่มันก็ยังติดขัดอยู่ในหลายๆ ส่วน เช่น การคาดเดาผิด อันเป็นผลจากประโยคคำสั่งที่ผู้ใช้งานพูดมี Keyword ที่กำกวม หรือ ไม่เข้าใจสำเนียงของผู้พูด (ตอนนี้ Siri เข้าใจเฉพาะ อังกฤษออสเตรเลีย, อังกฤษ/อังกฤษ, อังกฤษ/อเมริกัน, ฝรั่งเศส และ เยอรมัน) นอกจากนี้ก็ยังขาดความสามารถในการโต้ตอบครับ โดยมากการพูดคุยกับ Siri จะเป็นในลักษณะของ “ถามตอบกันทีละประโยคมากกว่า

เมื่อเร็วๆ นี้ก็มีข่าวมาอีกว่า Apple จะออก Apple TV (ตัวที่เป็น TV จริงๆ ไม่ใช่แค่กล่องมาต่อกับ TV) และอาจจะนำเอา Siri ไปใช้บน Apple TV ด้วย ลองจินตนาการถึงการสั่งให้ TV เปลี่ยนช่อง หรือหารายการที่ชอบ (ในกรณีของ Internet TV) ด้วยเสียง … ถ้าได้ขนาดนั้นละก็ ต่อไปนี้เราก็ไม่ต้องกลัวลืมว่าวางรีโมทคอนโทรลไว้ที่ไหนแล้วสินะ

 

คาดเดาทิศทางในการพัฒนาของ Voice Recognition

อนาคตของ Voice Recognition นั้น สำหรับผมแล้ว ผมมองว่าจะเป็นการพัฒนาใน 3 ด้านหลักๆ คือ

  • Voice Comprehension เพื่อปลดข้อจำกัดที่ว่าจำเป็นต้องสั่งงานตามรูปแบบที่กำหนด สามารถเลือกใช้คำพูดได้หลากหลายในการสั่งงานแบบเดียวกัน ดังนั้นจึงทำให้ใครก็สามารถใช้งานได้ตามนิสัยการพูดที่ตนเองถนัด และยังรองรับสำเนียงภาษาต่างๆ ด้วย
  • Semantic Meaning คือการพัฒนาปัญญาประดิษฐ์ให้เข้าใจถึงความหมายของประโยคจริงๆ ซึ่งนั่นจะทำให้มันเหมือนคนยิ่งขึ้น เพราะสามารถใช้พวกศัพท์แสลงต่างๆ ได้ด้วย เช่น Give kafaak a ring หมายถึงให้โทรหา kafaak ครับ (ตอนนี้ถ้าสั่งแบบนี้ Siri มันจะนึกว่าผมจะค้นหาสถานที่ซะงั้น)
  • Conversation คือ การพัฒนาปัญญาประดิษฐ์ให้มีการโต้ตอบกับเราในลักษณะของการสนทนามากขึ้น สามารถประมวลผล คาดเดาคำสั่งของเราได้ จากประวัติการสนทนากับเราก่อนหน้า เช่น ถ้าคุยกันเรื่องนัดหมายแล้วพบว่ากำลังจะไปหาคนคนหนึ่ง (ซึ่งมีการระบุพิกัดสถานที่เอาไว้) แล้วสั่งต่อได้เลยว่านำทางไปยังสถานที่ตามนัดหมายได้เลย เป็นต้น (ตอนนี้ Siri ทำได้ในบางส่วนแล้ว เช่น การสั่งให้ส่งอีเมล์หรือ SMS สามารถสั่งกำหนดผู้รับและ Subject ได้แล้ว Siri ยังสามารถคุยเพื่อขอให้เราบอกเนื้อหาของข้อความที่อยากส่ง แล้วถามต่อได้ว่าจะส่งหรือจะ Cancel เป็นต้น)


หากมีข้อสงสัยประการใด หรืออยากแบ่งปันความเห็นของท่าน ยินดีรับฟังและร่วมออกความเห็นได้ทาง Comment ด้านล่างนี้ หรือจะร่วมแชร์ความเห็นและความรู้ได้อีกหนึ่งช่องทาง เพียงแค่กด Like Facebook Fan Page ของผม ที่ http://www.facebook.com/kafaakBlog ครับ ส่วนใครได้ใช้ Google+ แล้ว แต่ยังไม่รู้จะเพิ่มใครเข้าแวดวง (Circle) ดี ก็จัดผมเข้าไปในแวดวงของท่านได้ที่ http://gplus.am/kafaak จ้า

  1. พฤศจิกายน 27, 2011 ที่ 10:32

    ตัว Apple TV ถ้ามีคนดุหลายคน เกิดคนดูอยากดุอะไรที่อยู่คนละช่อง แล้วแย่งกันสั่งให้เปลี่ยนช่อง เจ้า Apple TV น่าจะงงไม่น้อย หรือเปล่าเนี๊ยะ

  1. No trackbacks yet.

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s

%d bloggers like this: