در این دوره پژوهشگران در ابتدا با کلیات پردازش گفتار و شیوه تولید و ادراک گفتار در انسان آشنا میشوند. سپس بعد از آشنایی با بازشناسی گوینده و دستبندیهای آن، با روشهای مرسوم و جدید بازشناسی گوینده آشنا خواهند شد. در پایان نیز به صورت عملی یکی از روشهای بر مبنای شبکه عصبی در جعبه ابزار پایتورچ به آنها آموزش داده خواهد شد.
این دوره آموزشی در سه بخش برگزار خواهد شد. بخش اول توسط دکتر محمدمهدی همایونپور، بخش دوم توسط دکتر حسین زینلی و در نهایت کارگاه عملی دوره توسط مهندس محمدرضا مولوی ارائه خواهد شد.
سرفصلهای بخش اول (دکتر همایونپور):
مقدمه
- واجشناسی، آوا، واج (همخوان، واکه)، هجا، واژک، واژه و آوانویسی
- آناتومی و اجزاء سیستم تولید گفتار در انسان
- بررسی سیستم شنیداری در انسان (گوش بیرونی، گوش میانی و گوش درونی)
- رقمیسازی سیگنال گفتار و پیشپردازش گفتار (فریمبندی، پنجرهگذاری و پیشتاکید)
- استخراج ویژگی (انرژی، گام، فرمنت، طیفنگار، تحلیل پیشگویی خطی، تحلیل کپسترال)
- تعریف بازشناسی گوینده، دستهبندی آن، ساخت مدل، آستانهگذاری، انواع خطاها و ارزیابی، ضرورت بهروزرسانی مدل و سطح آستانه
سرفصلهای بخش دوم (دکتر زینلی):
- معرفی اجمالی انواع شبکههای عصبی، مدلهای کدگذار و کدکشا، مدل ترنسفورمر و انواع استراتژیهای آموزش
- مدلهای مرسوم HMM و GMM-UBM، ابر بردار میانگین و SVM، تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دستهبند PLDA
- روشهای استخراج بردار تعبیه گوینده با استفاده از شبکههای عصبی، روشهای d-vector و x-vector، ویژگیهای گلوگاهی، یادگیری معیارهای فاصله و توابع زیانه
- روشهای مبتنی بر یادگیری خود نظارتی برای بازشناسی گوینده، مدلهای بر پایه یادگیری تباینی، مدلهای چند وظیفهای
- معرفی چالش تصدیق هویت گوینده امسال
سرفصلهای بخش سوم (مهندس مولوی):
- معرفی اجمالی بخشهای مختلف سامانه تصدیق هویت گوینده
- آموزش استخراج ویژگی
- آموزش ساخت و آموزش یک مدل نمونه
- آموزش روش ارزیابی