رئيسي ابتكر الذكاء الاصطناعي الجديد لتحويل النص إلى كلام من Google جيد جدًا ونراهن أنه لا يمكنك إخباره من إنسان حقيقي

الذكاء الاصطناعي الجديد لتحويل النص إلى كلام من Google جيد جدًا ونراهن أنه لا يمكنك إخباره من إنسان حقيقي

برجك ليوم غد

هل يمكنك التمييز بين خطاب الكمبيوتر الناتج عن الذكاء الاصطناعي والإنسان الحقيقي الحي؟ ربما كنت تعتقد دائمًا أنك تستطيع ذلك. ربما تكون مغرمًا بـ Alexa و Siri ولكنك تعتقد أنك لن تخلط بين أي منهما وامرأة فعلية.

الأمور على وشك أن تصبح أكثر إثارة للاهتمام. عمل مهندسو Google بجد على إنشاء نظام لتحويل النص إلى كلام يسمى تاكوترون 2 . وفقا ل ورق قاموا بنشره هذا الشهر ، يقوم النظام أولاً بإنشاء مخطط طيفي للنص ، وهو تمثيل مرئي لكيفية نطق الكلام. يتم وضع هذه الصورة من خلال خوارزمية WaveNet الموجودة في Google ، والتي تستخدم الصورة لإنتاج كلام بشري يبدو طبيعيًا للغاية.

كم يبلغ ارتفاع ديون كول

باستخدام هذه الطريقة ، أفاد الباحثون ، 'حقق نموذجنا متوسط ​​درجة رأي (MOS) يبلغ 4.53 مقارنة بـ MOS البالغ 4.58 للخطاب المسجل احترافيًا.' (متوسط ​​درجة الرأي هو مصطلح اتصالات يقيس كيف يبدو شيء حقيقي في الحياة).

كما توضح عينات الصوت من Google ، يمكن لـ Tacotron 2 الكشف من السياق عن الفرق بين الاسم 'صحراء' والفعل 'الصحراء' ، وكذلك الاسم 'الحاضر' والفعل 'الحاضر' ، وتغيير نطقه وفقًا لذلك. يمكنه التركيز على الكلمات المكتوبة بأحرف كبيرة وتطبيق الانعكاس الصحيح عند طرح سؤال بدلاً من الإدلاء ببيان.

ويمكنه إنشاء نص يبدو مشابهًا جدًا للكلام البشري بحيث يصعب أو يستحيل معرفة الفرق. إذا كنت تريد معرفة مدى صعوبة ذلك ، فانتقل إلى موقع Google صفحة عينات الصوت ، ثم قم بالتمرير لأسفل إلى آخر مجموعة من العينات بعنوان 'Tacotron 2 or Human؟' ستجد هناك Tacotron 2 وشخصًا حقيقيًا يقول كل منهم جمل مثل ، 'تلك الفتاة فعلت مقطع فيديو عن أحمر الشفاه Star Wars.'

تنبيه المفسد: لاختبار نفسك ، استمع إلى العينات وخمن أيها قبل قراءة بقية هذا العمود.

إذن ما هي العينات التي تمثل تحويل النص إلى كلام وأيها صوت بشري حقيقي؟ لا يقول مهندسو Google لكنهم تركوا دليلًا كبيرًا جدًا. تحتوي كل عينة من عينات ملفات .wav على اسم ملف يحتوي إما على المصطلح 'gen' أو 'gt'. استنادًا إلى الورقة البحثية ، من المحتمل جدًا أن تشير كلمة 'gen' إلى الكلام الذي تم إنشاؤه بواسطة Tacotron 2 وأن كلمة 'gt' هي كلام بشري حقيقي. (من المحتمل أن تشير كلمة 'GT' إلى 'الحقيقة الأساسية' ، وهو مصطلح للتعلم الآلي يعني في الأساس 'الصفقة الحقيقية'.)

بافتراض أن هذا صحيح ، فإليك إجابات الاختبار:

ما حدث لبولا زين

'قامت تلك الفتاة بعمل فيديو عن أحمر الشفاه Star Wars.'

العينة 1: إنسان حقيقي

نموذج 2: تاكوترون 2

'حصلت على درجة الدكتوراه في علم الاجتماع من جامعة كولومبيا.'

نموذج 1: تاكوترون 2

العينة 2: إنسان حقيقي

'كان جورج واشنطن أول رئيس للولايات المتحدة'.

نموذج 1: تاكوترون 2

العينة 2: إنسان حقيقي

كم يبلغ ارتفاع لاري هيرنانديز

'أنا مشغول جدًا بالرومانسية.'

العينة 1: إنسان حقيقي

نموذج 2: تاكوترون 2

على ما حصلت بالضبط؟ وهل يمكنك حقًا معرفة الفرق ، أم كان عليك فقط التخمين؟