หน้าแรก > คอมพิวเตอร์, บ่นไปเรื่อย, เขียนตามกระแส > กาฝากอยากเล่า – เรื่องราวของ Voice Recognition ตอนที่ 1

กาฝากอยากเล่า – เรื่องราวของ Voice Recognition ตอนที่ 1

image

Mary Meeker กล่าวถึงเทรนด์ของ User Interface ของยุค 2000s นี้เอาไว้ในงาน Web 2.0 Summit ประจำปี 2011 เอาไว้ว่า จะเป็นยุคของ Touch/Sound/Move แต่หากมองย้อนกลับไปในอดีตแล้ว ความพยายามของการป้อนข้อมูล/สั่งงานอุปกรณ์ต่างๆ มีกันมานานมากแล้ว อยากให้ลองนึกถึงตอนที่ Nokia ออกตัวโทรศัพท์มือถือที่สามารถโทรออกได้ด้วยเสียง หรือตอนที่ Microsoft เปิดตัวคุณสมบัติการจดจำเสียง (Voice Recognition) บนตัว Microsoft Office XP นั่นมันก็เป็นสิบปีมาแล้วทีเดียวนะเนี่ย … เร็วๆ นี้ Apple ก็เพิ่งเปิดตัวคุณสมบัติ Voice Recognition ของตัวเองบ้าง ที่เรียกว่า Siri บน iPhone 4S แต่ว่าจากการรีวิวของเว็บต่างๆ รวมถึงการใช้งานด้วยตัวของผมเอง ก็ต้องบอกว่ามันได้รับการพัฒนาไปมากมายทีเดียวเชียว และผมก็รู้สึกว่าเราน่าจะมาทำความรู้จักกับเทคโนโลยีนี้กันหน่อยดีกว่าไหม?

image52322222222222222

แต่ก่อนที่จะเข้าสู่เรื่องของ Voice Recognition ก็ต้องขออุ้มไก่ให้กับผู้สนับสนุนหลักอย่างเป็นทางการของเว็บบล็อกนายกาฝากซะหน่อยนะครับ

  • Dell Thailand แนะนำ Dell Venue สมาร์ทโฟนระดับท็อป กับความสำเร็จเหนือชั้น ด้วยซีพียู 1GHz และระบบปฏิบัติการ Android 2.2 พร้อมกล้อง 8 ล้านพิกเซล รายละเอียดอ่าน ที่นี่เลย
  • อเด็คโก้ร่วมกู้วิกฤติแรงงาน ระดมงานสายอุตสาหกรรมเพื่อผู้ว่างงานกว่า 200 ตำแหน่ง รายละเอียดอ่านที่ http://www.adecco.co.th/jobs/Flooding-Crisis-Jobs.aspx เลยครับ

สำหรับคนที่ชอบติดตามข่าวสารในแวดวงไอที ตอนนี้ผมจัด YouTube Channel สำหรับเผยแพร่ข่าวสารแล้วครับ ติดตามได้ทาง http://www.youtube.com/user/kafaak ครับ ค้นหา “กาฝากน้อย ย่อยข่าว” ได้เลย

เอาล่ะ พอหอมปากหอมคอแล้ว ได้เวลาลุย!

ไม่ต้องย้อนไปไกลถึงยี่สิยกว่าปีก่อนหรอกครับ เอาแค่สิบกว่าปีก่อน เทคโนโลยี Voice Recogntion ก็ยังห่างไกลจากสมัยนี้เยอะแล้วครับ ข้อจำกัดหลักๆ คือเรื่องของฮาร์ดแวร์ครับ ทั้งลำโพงที่จะรับเสียงเข้ามา ทั้งหน่วยประมวลผลที่ยังไม่รวดเร็วเท่าไหร่ เลยทำให้การใช้งานไม่หลากหลายและค่อนข้างจำกัด เช่น

  • ฟีเจอร์โทรออกด้วยเสียงของ Nokia เอง ก็ต้องใช้การอัดเสียงไว้ล่วงหน้าก่อน จากนั้นเวลาสั่งโทรตัวเครื่องก็จะทำการเทียบเสียงของเรากับเสียงที่บันทึกไว้ (ซึ่งนั่นทำให้เพื่อนผมต้องบันทึกเสียงหลายแบบสำหรับใช้โทรหาแฟนของเขา ได้แก่ “เอ๋จ๋า (เสียงหวานๆ)”, “เอ๋ (เสียงห้วนๆ)”, “ไอ้เอ๋ (เสียงดุๆ)” ฯลฯ จะได้สามารถสั่งโทรหาแฟนด้วยเสียงได้ในทุกอารมณ์ (เหอๆ … เอ็งแน่มาก)
  • ฟีเจอร์การสั่งพิมพ์งานด้วยเสียงของ Microsoft Office XP ผมจำได้ว่าต้องเสียเวลาประมาณ 2 วันกับการนั่งอ่านให้ตัวโปรแกรมฟัง เพื่อจะได้จดจำสำเนียงและเสียงของผมได้ และถึงขนาดนั้นแล้วก็ยังฟังผมถูกแค่ 85% และพิมพ์ช้ากว่าที่ผมพิมพ์เองเกือบ 2 เท่า

ใช้ครับ เทคโนโลยี Voice Recognition ยังขาดอะไรอีกเยอะทีเดียว … แต่ลองมาดูกันก่อนดีกว่าว่าพื้นฐานนั้นมันเป็นยังไง

 

พื้นฐาน Voice Recognition

ขออ้างอิงจาก Infographic จาก www.medicationtranscription.net ที่ผมเอามาจาก Mashable ครับ

image

1. ก่อนอื่นเลยก็คือ เราพูดอะไรก็ได้ออกมา

2. จากนั้นเครื่องคอมพิวเตอร์ (หรืออุปกรณ์อื่นๆ) ก็จะรับฟัง … แน่นอนว่าตรงนี้หมายความว่า เครื่องคอมพิวเตอร์หรืออุปกรณ์นั้นๆ จะต้องมีไมโครโฟนรับเสียงของเราด้วย

3. ฮาร์ดแวร์และซอฟต์แวร์ของตัวเครื่องจะทำการวันความถี่และขนาดของคลื่น จากนั้นทำการ Normalize ความเร็วของคลื่น และทำการแยกแยะเอาเสียงรบกวน (Noise) ออก … อุปกรณ์ใหม่ๆ ในปัจจุบันจะมีเทคนิค Noice Cancellation ที่ดีขึ้นมากแล้ว

image

4. และ 5. คอมพิวเตอร์จะทำการแบ่งแยกสัญญาณเสียงออกเป็นองค์ประกอบย่อยๆ ที่เรียกว่า Phonemes

Phonemes คือหน่วยย่อยที่สุดของเสียงที่ใช้ประกอบขึ้นมาเป็นคำ เช่นคำว่า Good นั้นก็จะแยกออกเป็น G OO และ D มี 3 Phonemes ครับ

image

6., 7. และ 8. จะเป็นหน้าที่ของซอฟต์แวร์แล้วที่จะนำ Phonemes แต่ละตัวมาค้นหาคำที่มีเสียงตรงกับ Phonemes นั้นๆ โดยจะค่อยๆ ทำไปทีละ Phonemes ซึ่งตรงนี้จุดสำคัญอยู่ที่ตัวฐานข้อมูลที่ซอฟต์แวร์จะใช้เปรียบเทียบเสียงของแต่ละ Phonemes นั่นเอง

image

จุดสำคัญก็คือ จำนวนคำศัพท์ที่มีอยู่ในคลังของซอฟต์แวร์ครับว่ามีมากน้อยแค่ไหน เพราะยิ่งมีคำศัพท์มาก ก็ยิ่งมีตัวเปรียบเทียบมาก ก็ยิ่งแม่นยำมาก (แต่แลกมาด้วยสเปกเครื่องที่ต้องสูงขึ้นด้วย เพื่อที่จะสามารถเปรียบเทียบกับข้อมูลจำนวนมหาศาลได้รวดเร็ว … ตรงนี้ Cloud Computing อาจเป็นทางออกทางหนึ่ง คือ ส่งข้อมูลเสียงไปประมวลผลกับเซิร์ฟเวอร์ที่มีประสิทธิภาพสูงกว่าที่อยู่บน Cloud)

image

ย้อนกลับไปในอดีตเมื่อเกือบ 20 ปีก่อน ความแม่นยำของเทคโนโลยี Voice Recognition อยู่แค่ 10% เท่านั้นเอง และภายใน 2 ปีก็ได้รับการพัฒนาเพิ่มเป็น 48% และมาค้างเติ่งอยู่ที่ 81% ในช่วงปี ค.ศ. 1999-2001 ครับ

เทียบกับตัวคนเป็นๆ ซึ่งสามารถรู้จำคำพูดได้มากถึง 96% แล้ว ถือว่ายังห่างชั้น

 

ความพยายามของมหาค่ายยักษ์ใหญ่

image

ในช่วงหลายปีที่ผ่านมา Voice Recognition ไม่ได้มีอะไรหวือหวาเป็นข่าวให้เห็นมากนัก แต่ไม่ได้หมายความว่าความพยายามในการพัฒนาเทคโนโลยีดังกล่าวจะหดหายไปครับ บริษัทไอทีทั้งใหญ่น้อยต่างก็มีผลิตภัณฑ์ที่ใช้เทคโนโลยีดังกล่าวออกมาอยู่เนืองๆ โดยเฉพาะ 3 ยักษ์ใหญ่อย่าง Microsoft, Google และ Apple ครับ

โดย Microsoft ได้ซื้อกิจการของ Tellme Networks ผู้ให้บริการ Voice Services บนโทรศัพท์มือถือมา ซึ่งแน่นอนว่าเป้าหมายก็คือการเอามาใช้กับผลิตภัณฑ์สมาร์ทโฟน (Windows Phone 7) ของตน และอาจรวมไปถึงอุปกรณ์พกพาอื่นๆ ในอนาคตอีก

image

ด้าน Google นั้นคงไม่ต้องพูดถึง เพราะเปิดตัว Google Voice Search บนระบบปฏิบัติการ Android และผ่านทางบราวเซอร์ของเครื่องคอมพิวเตอร์ไปแล้ว และยังมี Google Translate ที่ ณ ขณะที่ผมกำลังเขียนบล็อกอยู่ในขณะนี้ สามารถแปลภาษาระหว่างอังกฤษและสเปนได้ค่อนข้างเนียนทีเดียว นี่ยังไม่นับถึงแผนการ Android @ Home อี่ก

image

Apple เองก็ก้าวเข้ามาสู่แวดวงนี้ด้วยเช่นกัน โดยเปิดตัวฟีเจอร์ที่เรียกว่า Siri (อ่านว่า สิ-ริ) บนสมาร์ทโฟนตัวใหม่ล่าสุดประจำปี ค.ศ. 2011 คือ iPhone 4S เลย ทว่าลักษณะของ Siri นั้นจะแตกต่างออกไปจาก Voice Recognition แบบเดิมๆ ที่ใครต่อใครเขาทำกัน โดยทำออกมาในลักษณะของปัญญาประดิษฐ์ (AI : Artificial Intelligence) ซึ่งสามารถโต้ตอบกับผู้ใช้งานได้ และออกมาในแนวของ Voice Comprehension มากกว่าครับ

แหม มันช่างสอดคล้องกับข้อมูลที่ Mary Meeker มานำเสนอใน Web Summit 2.0 เสียนี่กระไรล่ะ … ว่าแต่ว่าอนาคตของ Voice Recognition มันจะไปทางไหนล่ะเนี่ย? ตอนหน้าเราค่อยมาดูกันครับ

(ติดตามตอนต่อไป)


หากมีข้อสงสัยประการใด หรืออยากแบ่งปันความเห็นของท่าน ยินดีรับฟังและร่วมออกความเห็นได้ทาง Comment ด้านล่างนี้ หรือจะร่วมแชร์ความเห็นและความรู้ได้อีกหนึ่งช่องทาง เพียงแค่กด Like Facebook Fan Page ของผม ที่ http://www.facebook.com/kafaakBlog ครับ ส่วนใครได้ใช้ Google+ แล้ว แต่ยังไม่รู้จะเพิ่มใครเข้าแวดวง (Circle) ดี ก็จัดผมเข้าไปในแวดวงของท่านได้ที่ http://gplus.am/kafaak จ้า

  1. Chukiat
    พฤศจิกายน 26, 2011 ที่ 09:09

    จากคำว่า “เทียบกับตัวคนเป็นๆ ซึ่งสามารถเข้าใจความหมายของคำพูดได้มากถึง 96% แล้ว” น่าจะเป็นคำว่า “…รู้จำของคำพูด…” เพราะว่า คำว่าความหมาย อาจเข้าใจกันคนละทางตามพื้นฐานของการเรียนรู้ที่ผ่านมาหรือการอบรมสั่งสอนหรือสิ่งแวดล้อมก็เป็นได้ ถ้านำมาใช้กับ voice recoginition อาจจะไม่ค่อยตรงมากนัก อันนี้เป็นความคิดเห็นของผมผู้ซึ่งรู้เรื่องนี้งูๆปลาๆนะครับ

    • นายกาฝาก
      พฤศจิกายน 26, 2011 ที่ 09:37

      ขอบคุณสำหรับความเห็นครับ
      ผมอาจเลือกใช้คำผิดจริงๆ เดี๋ยวขอไปแก้ไขครับ

  1. พฤศจิกายน 26, 2011 ที่ 10:44
  2. กุมภาพันธ์ 14, 2012 ที่ 04:43

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s

%d bloggers like this: