چارلز داروين نخستين كتاب درباره بيان احساسات انسان و حيوان را در قرن نوزدهم نگاشت. پس از اين اثر مهم روانشناسان و متخصصان هوش مصنوعي به تدريج به جمع آوري دانش و اطلاعات در اين زمينه پرداختند. اخيراً نيز موج جديدي از توجه روانشناسان و متخصصان هوش مصنوعي را بر انگيخته است.
بعضي از دلايل اين رنسانس عبارتند از :پيشرفت فناوري در ثبت, ذخيره و تحليل اطلاعات صوتي و تصويري, پيشرفت در فناوري حسگرهايnone intrusive و كامپيوتر هاي فرسايش پذير , بالا رفتن سطح فناوري ارتباط انسان و رايانه از نقطه و كليك به حس و عاطفه و نرم افزار هاي زنده وار مخصوص كمك به انسان و رباتهاي حيوان شكل خانگي از قبيل Furbi هاي شركت تايگر, Aibo هاي شركت سوني كه قادر به درك و بيان احساسات مي باشد. به تازگي زمينه هاي تحقيقاتي جديدي در هوش مصنوعي(AI) تحت عنوان محاسبه عاطفي ايجاد شده است. در حوزه رمز گشايي و توصيف و به تصوير كشيدن حالات در گفتار، تا كنون روانشناسان به آزمايشات تجربي بسياري دست زده اند و فرضيه هايي ارائه داده اند و از طرف ديگر محققان هوش مصنوعي نيز در شاخه هاي زير تحقيقات ارزنده اي انجام داده اند: ساخت و تركيب حالات گفتار, باز شناسايي حالات گفتار و استفاده از نرم افزار هايي براي رمز گشايي و بيان حالات. انگيزه ما تحقيق و كاوش در راههاي استفاده از بازشناسي حالات گفتار است كه مي تواند در تجارت (به خصوص كاربرد آن در يك مركز تلفن), يك كاربرد بالقوه آن تشخيص حالت گفتاري در يك مكالمه تلفني و ايجاد فيدبك به يك اپراتور يا سرپرست به منظور نمايش باشد. كاربرد ديگر آن ذخيره پيامهاي صوتي طبق حالت بيان شده توسط تماس گيرنده مي باشد. و كاربرد ديگر آن استفاده از محتواي حالت احساسي مكالمات جهت ارزيابي عملكرد اپراتور است. شناسايي خودكار حالت گفتار با توجه با حالات صورت، حركات بدن و يا ويژگي هاي گفتار از اميدبخش ترين روش هاي بازشناسي حالت گفتار ثابت شده است. بخصوص در زمينه سيستم هاي امنيتي در سالهاي اخير علاقه مندي هاي بسياري مشاهده شده است.
حال مي خواهيم بدانيم كه منظور از حالت در گفتار چيست؟ اگر تا كنون در چند سخنراني شركت كرده باشيد خواهيد ديد كه برخي از سخنراني ها جذاب و برخي خسته كننده مي باشند. اين موضوع علاوه بر موضوع سخنراني به نحوه بيان سخنران نيز بستگي دارد. اگر سخنران گفتاري يكنواخت داشته باشد همانند يك ربات خواهد بود، كه باعث خواب آلودگي شنونده مي شود. بنابراين سخنرانان حرفه اي با تغيير آهنگ گفتار خويش و با حركات به موقع دست، سر و بدن خويش، با تاكيد روي برخي كلمات، بيان برخي جملات با تعجب برخي با افسوس و… حال و هواي سخنراني را تغيير مي دهند. اين تغييرات در نحوه بيان جملات و كلمات را “حالت در گفتار” گويند. بعبارت ديگر اداي جملات به هر شكلي غير از حالت عادي و يكنواخت بعنوان يك حالت شناخته مي شود. حالات مختلف ممكن از قبيل: خشم، تنفر، ترس، شادي، غم، هيجان، آرامش، كسالت، افسردگي و … مي باشند. حتي در برخي از مواقع در مورد ميزان يك حالت بحث مي شود، مثلا شاد با خيلي شاد را در نظر مي گيرند. اضافه كردن حالت طبيعي به اين حالت ها معقول بنظر مي رسد تا هر كدام از اين حالت ها درك شوند. يعني براي در نظر گرفتن يك حالت جديد يك سري تغييرات بايد نسبت به يك مبدا وجود داشته باشد و در اينگونه كار ها مبنا حالت طبيعي و بدون حالت مي باشد. اين طبقه بندي بعنوان اساس مقايسه استفاده مي شود. امروزه آمار عمومي از يك عبارت بعنوان اساس كار است، اگر چه سعي در استفاده از ويژگيهاي ذاتي موجود را دارند
فصل اول: اصول كلي در ايجاد حالت در گفتار و شناسايي حالت گفتار
1 – ايجاد و بازشناسي حالت در گفتار
1 -1- روابط صوتي حالت در گفتار انساني
1 -2- ايجاد گفتار حالتدار كارتوني
1 -2-1 – هدف
1 -2-2- تحقيقات موجود
1 -2-3 – الگوريتم ساده و كامل
1 -2-4- ارزيابي با نمونههاي انساني
1 -2-5- تغيير مستمر سن صدا و ميزان حالت
1 -3- ارزيابي سن و كنترل ميزان حالت
1 -4- بازشناسي حالت در گفتار انساني
1 -4-1- هدف
1 -4-2- تحقيقهاي موجود
1 -4-3- پايگاه داده
1 -4-4- استفاده از تكنيك هاي استخراج داده ها
1 -4-5- انتخاب ويژگي
1 -4-6- زمانيكه تعداد نمونههاي خيلي كمي فراهم باشد
1 -4-7- آموزش ربات در حالت واقعي
1 -5- نتيجه گيري
فصل دوم: روشهاي شناسايي حالت گفتار و برخي كاربردها در اين زمينه
1- مقايسه الگوريتمهاي شبكه عصبي، 3-NN، SVM و درخت تصـميم گيـري در سيسـتم هـايپاسخگويي صوتي متقابل
1 -1- بازشناسي حالت
1 -2- بانك اطلاعاتي
1 -3- استخراج ويژگيها
1 -3-1 – ويژگيهاي فركانس پايه (0F)
1 -3-2 – ويژگيهاي انرژي
1 -3-3 – ويژگيهاي طول زمان شنيداري
1 -4- گروهبندي و نتايج
1 -4-1- بازشناسي خيلي خشمگين و عادي
1 -4-2- بازشناسي عصبانيت شديد و كم در برابر غم / عادي
1 -4-3- بازشناسي شادي, عادي/غم, عصبانيت شديد
1 -4-4- كدام حالت ها از لحاظ نواي گفتار به يكديگر نزديك اند؟
1 -4-5 -بازشناسي همه 15 حالت
1 -5- نتيجه گيري
استفاده از GMM ها براي بازشناسي حالت در گفتار روزمره
2-1- موضوع
2-1-1 – موضوع فراهم كننده صدا
2-1- 2-مجموعه هاي جلسات ISL
2-2- ويژگي ها
2-2- 1-ضرايب كپسترال فركانس mel
2-2-2- MFCC پايين
2-2-3- فركانس گام و مشتق آن
2-3- طبقه بندي كننده ها
2-3-1 – تركيب طبقه بندي كننده ها
2-4- آزمايشات
2-5- نتايج
2-5-1 نتايج فراهم كننده صدا
2-5-2نتايج گروه انجمني ISL (meeting corpus)
2-6- بحث
2-7- جمع بندي
3 – شناسايي و تشخيص حالت گفتار با استفاده از K-NN و شبكه هاي عصبي
3 -1 تحقيق آزمايشگاهي
3-1-1 – مجموعه داده هاي حالتدار ( گفتار هاي حالتدار )
3-1-2 – عملكرد افراد
3 -2- توسعه
3-2-1 – استخراج ويژگيها
3-2-2-اجراي كامپيوتري
بازشناسي حالت با استفاده از آناليز تفكيك كننده درجه دوم ، خطي و ماشين بردارپشتيبان گوسي و مدل ماركوف مخفي و مقايسه آنها با يكديگر
4-1- بازشناسي حالت
4 -1-1- استخراج ويژگي
4 -1-2- انتخاب ويژگي
4 -1-3-طبقه بندي
4-2- نتايج آزمايشگاهي استفاده از پايگاه داده SusAs
4 -2-1- نتايج گزينش ويژگي منحصر به فرد
4 -2-2 – نتايج گزينش ويژگي گروه
4 -2-3 – نتايج طبقه بندي حالت گفتار
4-3- نتايج آزمايشگاهي استفاده از پايگاه داده ALBO
4 -3-1- نتايج دسته بندي جفتهاي مشابه(Pair-wise)
4 -3-2 – دسته بندي چند كلاسه با استفاده از GSVM و HMM
4-4- بحث
4-5- نتيجه
5- بازشناسي حالت گفتار با استفاده از راي اكثريت كارشناسان زيرفضا(KNN)
5-1- استخراج ويژگي ها
5-1 -1- ويژگي هاي استخراج شده پايه
5-1 -2- جستجو براي يافتن ويژگي هاي بهينه
5-2- عملكرد پايه
5-3 – بهينه سازي استاندارد فاصله
5-4- انتخاب ويژگي
5-5- راي اكثريت كارشناسان
5-6- بحث
5-7- جمع بندي
6- بازشناسي حالات گفتار چندزبانه با استفاده از آناليز مؤلفه هاي اصلي
6-1- مرور بر آزمايش بازشناسي حالات
6 -1-1- مؤلفه هاي اساسي آزمايش بازشناسي حالات
6 -1-2 – مجموعه گفتار مورد استفاده براي آناليز و بازشناسي
6 -1-3- استخراج و آناليز ويژگيهاي نواي گفتار
6-2- تفكيك پذيري حالات احساسي
6-3- بازشناسي حالت گفتار چند زبانه
6 -3-1- آناليزمولفه هاي اصلي
6 -3-2 -آزمايش ها و نتايج
6-4- نتايج
7- بازشناسي حالت از سيگنالهاي بالقوه زيستي چند مدلي با استفاده از شـبكه هـاي عصـبي و SVM
7 -1- جمع آوري داده هاي حالت دار
7-1 -1- تجهيزات آزمايشي
7-1 -2- آزمايشات فيزيولوژيكي
7-1 -3- استخراج ويژگي
7 -2- دسته كننده الگو
7-2 -1- شبكه هاي عصبي چند لايه
7-2 -2- ماشين بردار پشتيباني
7 -3- آزمايشات بازشناسي حالت
7 -4- نتيجه گيري
8- بازشناسي حالت گفتار با استفاده از مدل ماركوف مخفي
8-1- استخراج پوشهاي ويژگي هاي خام(RAW)
8-2- – آمار عمومي با استفاده از GMM ها
8 -2-1 – ويژگي وابسته به فركانس گام
8 -2-2- ويژگي هاي وابسته به انرژي
8 -2-3- پردازش ويژگي هاي حاصل
8-3- استفاده از CHMM در بازشناسي
8-4- – مجموعه گفتار
8-5- نتايج بازشناسي
8 -5 -1- آمار عمومي
8 -5 -2- ويژگي هاي لحظه اي
8 -5 -3- قضاوت بشري
8-6- بحث
9- بازشناسي حالت گفتار با استفاده از شبكه عصبي
9-1- طراحي سيستم
9-1-1 – حالت گفتار
9-1-2 مستقل از گوينده و مفهوم
9-1-3 مراحل پردازش
9-1-4 – ويژگي گفتار
9-1-5 معماري شبكه عصبي
9-2- – آزمايش بازشناسي حالت
9-2-1 پايگاه داده گفتار
9-2-2 روش هاي آموزش و آزمايش
9-2-3 نتايج و بحث
9-3- – نتيجه گيري
10- مقايسه بين مدل فازي و شبكه عصبي در بازشناسي حالت گفتار با استفاده از الگوريتم آناليز LPC
10-1- طرحي از بازشناسي كننده حالات
10 -1-1- استخراج پارامتر حالت
10 -1-2- بازشناسي حالات
10-2 – آزمايش
10 -2-1- شناسايي تعداد نمونه آموزشي
10 -2-2 – شناسايي ويژگي حالات
10-3- نتيجه گيري و بحث و گفتگو
10-4 – نتيجه گيري و كارهاي آينده
منابع لاتين
توضیحات بیشتر | قیمت : 35000 تومان |