« التكنولوجيا المتقدمة بحق هي تلك التي يصعب التمييز بينها وبين السحر » هذا ما قاله الروائي البريطاني المختص في عوالم الخيال العلمي، آرثر سي كلارك ذات مرة. تكنولوجيا التفاعل الصوتي البارزة بقوة في عالم اليوم باتت تؤكد مقولته. استخدامها يقترب من النطق بكلمات سحرية: أطلق كلمات قليلة في الهواء، وسيحولها جهاز قريب منك إلى واقع.
بإمكان « أمازون إيكو »، وهو جهاز لولبي الشكل يوضع فوق سطح الطاولات والمكاتب وبداخله صوت مجيب يحمل اسم « أليكسا »، أن يشغل لك مقاطع موسيقية مختلفة ويصلك بمحطات إذاعية، ويحكي لك طرائف، ويجيب على أسئلتك التافهة، ويتحكم في أجهزتك المنزلية الإلكترونية.
إلى حدود دجنبر من العام الماضي، كان الجهاز حاضرا في 4 في المائة من البيوت الأمريكية. المساعدة الصوتية تنتشر بقوة أيضا داخل الأجهزة الذكية، تتعامل برمجية آبل الصوتية، « سيري »، مع ما يزيد عن ملياري طلب مساعدة صوتية كل أسبوع، و20 في المائة من الأبحاث المدخلة في محرك البحث غوغل من الأجهزة المشتغلة بنظام أندرويد تتم شفاهة. كما أن إملاء الرسائل الإلكترونية والرسائل القصيرة تشتغل بما يكفي من الفعالية لتعتبر ممارسة عملية ومفيدة. لم تضيع وقتك في رقن الحروف ويكفيك النطق بها؟
وسيلة طبيعية للتفاعل
نحن أمام تحولات غير مسبوقة. مهما بدت بسيطة، فتكنولوجيا الصوت لديها القدرة على تغيير العالم المعلوماتي، بتقديمها وسيلة طبيعية للتفاعل. في وقت سابق، لقيت النوافذ والأيقونات وقوائم الإعدادت، ثم الشاشات التي تعمل باللمس ترحيبا كبيرا باعتبارها وسائل أكثر ابتكارا للتعامل مع الحواسيب مقارنة مع نظام الرموز القديم (Ms dos). غير أن إيجاد القدرة على التحدث مع الحاسوب تلغي أي حاجة لفكرة « واجهة المستخدم » (User interface) بالمرة.
تماما مثلما اعتبرت الهواتف الذكية أكثر من مجرد هواتف دون أسلاك، والسيارات أكثر من مجرد مركبات بدون أحصنة، كذلك الحواسيب بلا شاشات ولا لوحات مفاتيح بإمكانها أن تكون مفيدة جدا، وأقوى وأوسع انتشارا مما قد يتخيله الناس حاليا.
لن يعوض الصوت باقي أشكال المدخلات والمخرجات، وسيكون في بعض الأحيان من الملائم أكثر الحديث مع الآلة من خلال الكتابة على لوحة المفاتيح عوض الكلام. لكن الواقع يؤشر على إقبال متزايد في استعمال الصوت في تفاعلات الناس مع التكنولوجيا المحيطة بهم، من آلات الغسيل التي تخبرك بعدد الدورات المتبقية إلى المستشاريين الرقميين في مراكز النداء. رغم ذلك، تحتاج تكنولوجيا التفاعل الصوتي لبلوغ مداها إلى مزيد من الابتكارات، وإيجاد حل للأسئلة الشائكة التي تثيرها بخصوص الحدود بين خدمة المستخدم والمس بخصوصيته.
أجهزة تصغي وتتعلم
أنظمة الإملاء الرقمي كانت موجودة لسنين طويلة، لكنها كانت غير فعالة وتتطلب مدة طويلة من الوقت لتتعرف على صوت مستخدم معين. قدرة الحواسيب الجديدة على التعرف على صوت أي شخص دون تدريب مسبق هو أكبر علامة على قوة ما يعرف بتكنولوجيا « التعليم العميق »، وهي تقنية من تقنيات الذكاء الاصطناعي يتم عبرها تعليم برنامج ما باستخدام ملايين الأمثلة، في الغالب مستقاة من الانترنت. بفضل التعليم العميق، صارت الآلات تتساوى تقريبا مع البشر في دقة الكتابة، كما أن أنظمة الترجمة الرقمية تتطور بشكل لافت، وبرامج قراءة النصوص صارت تبدو طبيعية أكثر. باختصار، صارت الحواسيب أفضل بكثير في تعلم اللغات الطبيعية بكل تلويناتها.
ورغم أن التعليم العميق يعني أن الآلات يمكنها ان تتعرف على الصوت بشكل أدق وتتحدث بطلاقة أكبر، فلا زالت معظم البرمجيات لا تعرف معنى اللغات. ويطرح هذا الأمر مشكلا حقيقيا، لأن ازدهار هذه البرمجيات رهين بفك هذا الإشكال. يجب أن تصير الحواسيب قادرة على فهم السياق من أجل أن تكون أحاديثها حول الأشياء المختلفة أكثر انسجاما، عوض أن تجيب بشكل بسيط فقط على الطلبات، مثل ما تفعل غالبها اليوم. ويعكف الباحثون في عدة جامعات ومختبرات اليوم على حل هذا الإشكال بابتكار روبوتات رقمية، أو اختصارا بوتات (bots) يمكنها أن تنتج أحاديث أكثر دقة حول مهام معقدة، من البحث عن معلومات إلى تقدم استشارات حوض القروض أو ترتيب السفريات. (شركة أمازون تعرض جائزة بقيمة مليون دولار لمن يخترع بوتا (bot) قادرا على الحديث « بشكل منسجم وتفاعلي » لمدة 20 دقيقة).
هاجس الخصوصية
وسيكون للمستهلكين وهيآت التقنين دور أساسي أيضا في تحديد مسار هذه التكنولوجيا. فحتى في وضعها الحالي، البدائي إلى حد ما، تطرح تكنولوجيا الصوت تحديا كبيرا يتصل بكون هذه البرامج تكون أكثر فائدة عندما تستعمل في الحياة الخاصة ويمنح لها ولوج واسع لمصادر المعلومات مثل جدول الأعمال، والرسائل الإلكترونية، ومعلومات حساسة أخرى. وهذه الحقيقة تثير تساؤلات بخصوص الحياة الخصوصية والأمن.
لنمضي أكثر في استشكال التحدي الذي تطرحه هذه التكنولوجيات، علينا أن نعلم أن معظم أجهزة التفاعل الصوتي تنصت باستمرار لكل ما يجري حولها في انتظار إشارة لتشتغل. وجود آذان منتشرة في مختلف أرجاء البيت موصولة بالانترنت وتنصت لكل صغيرة وكبيرة يثير منذ الآن انشغالا الكثيرين. طبعا ليس أي صوت تسمعه يرسله إلى السحاب (cloud)، وإنما تنتظر الأجهزة سماع إشارة أو كلمة مفتاح من مثل « أليكسا « ، أو « أوكي غوغل »، أو « هاي كورطانا »، أو « هاي سيري »، قبل أن تصل المستخدم بخوادم تتكلف بإنجاز المهمة التي طلبها. لكن حين يتعلق الأمر بتخزين الصوت، فلا زال مصير الأصوات المخزنة غير واضح.
وحتى في ظل مثل هذه التحديات، سيستمر المستهلكون في الإقبال على أجهزة التفاعل الصوتي. ففي أحيان كثيرة، الصوت يكون أكثر ملاءمة وطبيعيّة من أي وسيلة أخرى للتواصل. كما أنه بالإمكان استعامل الأجهزة التي تتفاعل مع الصوت خلال القيام بعمل آخر (قيادة السيارة، القيام بتمارين رياضية، السير في الشارع). يمكن لهذه التكنولوجيا أن توسع إمكانات الحواسيب ليستفيد منها الأشخاص غير القادرين، لسبب أو لآخر، على استعمال الشاشات ولوحات المفاتيح. أيضا بإمكان الترجمة الرقمية التزامنية الآنية أن تلغي أي حاجة لتعلم الحديث بلغة أجنبية بالنسبة لعدة أشخاص. ابتكار الشاشات التي تعمل باللمس شكّل آخر نقلة كبرى في طريقة تفاعل الناس مع الحواسيب. النقلة الآن نحو الكلام تفتح آفاقا أكبر.
بتصرف عن « ذي إيكونوميست »