دستگاه شنوایی آدم
وی اس تی
دانلود وی اس تی,وی اس تی,دانلود vst,فروش vst,خرید vst,خرید وی اس تی
پردازش صوت محدودههای گوناگونی را در بر میگیرد که تمام به منظور ارائة صدا به شنوندگان آدم ی ابداع شدهاند. سه محدودة تکثیر موسیقی با کیفیتی به خوب ی اصل شبیه آنچه در سیدیهای صوتی وجود دارد ،رابطه صوتی از راه دور که نام دیگر شبکة تلفنی است ،ترکیب صحبت که در آن کامپیوترها الگوهای صوتی آدم را تولید کرده یا تشخیص میدهند از دیگر قلمروهای دانش پردازش صوت مهمترند. با وجود این که اهداف موارد این کاربردها مفرق ند همگی در یک نقطة مشترک به میرسند و آن گوش آدم است.
گوش آدم یک عضو به گونهای فزاینده پیچیده است. قضیه وقتی پیچیدهتر میشود که اطلاعات ارسالی از دو گوش در یک شبکة پیچیدة گیج کننده که همانا مغز آدم باشد با ترکیب میشوند. به یاد داشته باشیم که بیان فوق یک گذر کلی بر قضیه است و تعداد زیادی از پدیدهها آثار دقیق ارتباط با گوش آدم هنوز به درستی درک نشدهاند.
شکل 1 قسمت اعظم ساختارها پردازشهایی را که گوش آدم را در بر دارند به تصویر میکشد. گوش خارجی از دو بخش تشکیل شده است: نرمی پوست قابل مشاهده و غضروف متصل به کنار سر و کانال گوش که لولهایست به قطر تقریبی 0.5 سانتیمتر و تا حدود 3 سانتیمتر در درون سر فرو میرود. این ساختارها صداهای محیط را به بخشهای حساس گوش میانی گوش داخلی که در درون استخوانهای جمجمه حفاظت میشود راهبری میکنند. در انتهای کانال گوش یک ورقة نازک از نسوج که پردة صماخ طبل گوش نامیده میشود کشیده شده است. امواج صدا با برخورد به پردة صماخ باعث لرزش آن میشوند. گوش میانی مجموعهای از استخوانهای کوچک است که لرزش مزبور را به حلزون گوش (گوش داخلی) انتقال میدهند در آنجا این لرزشها تبدیل به ضربههای عصبی میگردند. حلزون گوش یک لولة پر از مایع است که به زحمت قطر آن به 2 میلیمتر و طول آن به 3 سانتیمتر میرسد. اگر چه حلزون گوش در شکل شمارة 1 به صورت یک لولة مستقیم نشان داده شده اما در واقع به دور خودش شبیه صدف حلزون پیچ خورده است و وجه تسمیة آن که ریشه در کلمهای یونانی به معنای حلزون دارد نیز این واقعیت است.
وقتی یک موج صوتی سعی دارد از هوا وارد مایع شود فقط کسر کوچکی از آن از بین دو محیط عبور کردن میکند باقیماندة انرژی آن بازتابیده میشود. دلیل این امر پایداری مکانیکی پایین هوا (ناشی از پایین بودن میزان فشار صوتی و سرعت بالای ذرات هوا که به نوبة از چگالی پایین تراکمپذیری بالای آنها نشأت میگیرد) در مساوی پایداری مکانیکی بالای مایع است. به جمله سادهتر دلیل این امر مشابه دلیل این مورد است که برای ایجاد موج با دست در داخـل آب به تلاش بیشتری به نسبت انجام این کار در هوا نیازمندیم. فرق موجود باعث بازتابش بخش اعظم صوت در مرز هوا/مایع میگردد.
گوش میانی یک شبکة تطبیق پایداری است که کسر انرژی صوتی وارد شده به مایع گوش داخلی را زیاد میکند. جهت نمونه ماهی پردة صماخ گوش میانی ندارد برای چه که نیازی به شنیدن در هوا ندارد. تغییر شدت، بیشتر ناشی از فرق مساحت پردة صماخ (که صدا را از هوا دریافت میکند) و دریچه بیضوی (که همموسیقی شکل 1صدا را به درون مایع انتقال میدهد) میباشد. مساحت پردة صماخ حدوداً 60 میلیمتر مربع است حال آن که دریچة بیضوی حدوداً 4 میلیمتر مربع مساحت دارد. از آنجا که فشار مساوی است با نسبت نیرو به مساحت، این فرق مساحت فشار موج صدا را حدوداً 15 مساوی افزایش میدهد.
در داخـل حلزون گوش پردة اصلی قرار دارد که ساختاری را جهت 12000 سلول حسی که شکلدهندة عصب حلزونی است ایجاد میکند. پردة اصلی در نزدیکی دریچة بیضوی زیاد سفت است و در انتهای دیگر انعطافپذیرتر است که این امر به این عضو کمک میکند تا به عنوان تحلیلگر طیف فرکانسی عمل کند. وقتی پردة اصلی در معرض یک سیگنال با فرکانس بالا قرار میگیرد در پارت سفتتر طنین میاندازد که سبب تحریک سلولهای عصبی نزدیک به دریچة بیضوی میگردد. به همین ترتیب فرکانسهای پایین سبب تحریک انتهای دورتر پردة اصلی میشوند. این امر سبب پاسخگویی رشتههای ویِژگزینشه عصب حلزونی در مساوی فرکانسهای ویِژگزینشه میگردد. این سازوکار اصل مکان نامیده میشود و در همه مسیر به سمت مغز حفظ میشود.
طرح کدگذاری اطلاعات دیگری نیز در شنوایی آدم به کار میرود که اصل رگبار نامیده میشود. سلولهای عصبی اطلاعات را با تولید پالسهای الکتریکی کوچکی که پتانسیل کنش نامیده میشوند انتقال میدهد. یک سلول عصبی واقع بر پردة پایینی میتواند اطلاعات صوتی را با تولید یک پتانسیل کنش در جواب هر سیکل لرزش کدگذاری کند. برای نمونه یک موج صدای 200 هرتزی میتواند توسط یک نورون ایجاد کنندة 200 پتانسیل کنش در ثانیه نشان داده شود. در هر صورت اینروش تنها در فرکانسهای زیر حدوداً 500 هرتز – بالاترین سرعت ممکن تولید پتانسیل کنش در نورونها – به کار میآید. گوش آدم جهت غلبه بر این مشکل به نورونها مجوز میدهد که برای انجام این کار دستهجمعی عمل کنند. برای نمونه یک صدای 3000 هرتزی میتواند بوسیله ده سلول عصبی که هر کدام 300 ضربه در ثانیه علامت میدهند نشان داده شود. این پدیده بازة کارایی اصل رگبار را تا 4 کیلوهرتز گسترش میدهد که بالاتر از بازة عملیاتی اصل مکان میباشد.
شکل شمارة 1- توضیحات مربوط به شکل: نمودار کارکردی گوش آدم . گوش خارجی امواج صوتی را از محیط میگیرد و آنها را به سوی پردة صماخ (طبل گوش) که ورقة نازکی از بافت است و همموسیقی با شکل موج هوا میلرزد راهبری میکند. استخوانهای گوش میانی (استخوانهای چکشی، سندانی رکابی) این لرزشها را به دریچة بیضوی که پردهای منعطف واقع در حلزون گوش پر از مایع است انتقال میدهند. در درون حلزون گوش پردة اصلی قرار دارد که ایجاد کنندة ساختاری جهت 12000 سلول عصبی شکلدهندة عصب حلزون گوش است. بسته به سفتی متغیر پردة پایینی، هر سلول فقط به بازة کوچکی از فرکانسهای صدا جواب میدهد که این پدیده گوش را تبدیل به یک تحلیلگر طیف فرکانسی مینماید.
شکل شمارة 2 رابطة بین شدت صدا و بلندی مشاهده شده را نشان میدهد. معمولا شدت صدا را با یک اندازة لگاریتمی که دسیبل اس.پی.ال. (سطح توان صدا) نامیده میشود نشان میدهند. در این معیار 0 دسیبل اس.پی.ال موج صدایی با قدرت ده به توان منفی شانزده وات بر سانتیمتر مربع است که حدوداً ضعیفترین صدای قابل تشخیص بوسیله گوش آدم است. حرف معمولی حدوداً 60 دسیبل اس.پی.ال است صدایی با شدت 140 دسیبل اس.پی.ای برای گوش دردناک زیانآور است.
شکل شمارة 2 – واحدهای شدت صدا. شدت صدا به صورت توان بر واحد مساحت تعریف میشود (مثلاُ وات بر سانتیمتر مربع) یا به صورت معمولتر با مصرف از یک اندازة لگاریتمی که دسیبل اس.پی.ال خوانده میشود. همچنان که این جدول نشان میدهد قوة شنوایی آدم بیشتر به صداهای بین 1کیلوهرتز تا 4 کیلوهرتز حساس است.
اختلاف بلندترین و ضعیفترین صداهایی که آدم میتواند بشنود 120 دسیبل است که از لحاظ دامنه معادل بازهای حدود یک میلیون است. شنونده تغییر بلندی صدا را وقتی صدا حدود 1 دسیبل (12% در دامنه) تغییر کند تشخیص میدهد به جمله دیگر فقط 120 سطح بلندی صدا از ملایمترین نجوا تا بلندترین تندر قابل تشخیص است. حساسیت گوش آنقدر جذاب توجه است که شنیدن به ضعیفترین صداها پردة صماخ به اندازهای کمتر از قطر یک ملکول به لرزش درمیآید!
حس بلندی صدا با توان صدا رابطة توانی با نمای 1/3 دارد. به عنوان نمونه اگر شما توان صدا را ده مساوی کنید شنوندگان آن صدا دو مساوی شدن بلندی صدا را احساس گزارش میکنند.
این مسأله یک مشکل بزرگ جهت حذف صداهای محیطی ناخواسته به وجود میآورد. جهت نمونه فرض کنید که شما 99% دیوار را با عایق صوتی پوشاندهاید تنها 1% که مربوط به درها، گوشهها، منافذ و… هستند باقی ماندهاند. با وجود آن که توان صدا تا اندازة 1% میزان اولیة آن کاسته شده بلندی صدا فقط به اندازة 20% کاهش پیدا کردهاست.
بازة شنیداری آدم بین 20 هرتز تا 20 کیلوهرتز در نظر گرفته میشود، حال آن که بیشتر صداهای قابل حس در بازة 1 کیلوهرتز تا 4 کیلوهرتز قرار دارند. جهت نمونه شنوندگان میتوانند صدایی به میزان صفر دسیبل را در فرکانس 3 کیلوهرتز بشنوند حال آن که جهت شنیدن یک صدای 100 هرتزی حداقل میزان آن باید 40 دسیبل باشد. شنوندگان میتوانند بگویند که دو صدا مفرق ند چنانچه فرکانس آنها بیش از حدود 0.3% در 3 کیلوهرتز مفرق باشد. به عنوان نمونه کلیدهای کنار هم در پیانو به اندازة حدود 6% فرق فرکانس دارند.
مهمترین مزیت داشتن دو گوش تشخیص جهت صداست. شنوندگان آدم ی میتوانند فرق بین دو منبع صدا را که فاصلهای به کمی 3 درجه دارند (حدوداً مساوی با عرض یک آدم در فاصلة ده متری) تشخیص دهند. این اطلاعات جهتی به دوروش جداگانه به دست میآیند. اولاً فرکانسهای حدوداً بالای 1 کیلوهرتز به شدت زیر سایة سر قرار میگیرند. به بیان دیگر گوشی که به منبع نزدیکتر است سیگنال قوی تری را به نسبت گوشی که در جهت مخالف دارد دریافت میکند.آموزش دیگر تشخیص جهت آن است که گوش دورتر به خاطر فاصلة بیشترش از منبع صدا را کمی دیرتر از گوش نزدیکتر دریافت میکند. به واسطة اندازة معمول سر (حدوداً 22 سانتیمتر) سرعت صوت (حدود 340 متر در ثانیه) فرق گذاری زاویهای سه درجه دقت زمانی حدود 30 میکروثانیه نیاز دارد. چون این فاصلة زمانی نیازمند اصل رگبار است اینشیوه جهتیابی برای صداهای دارای فرکانس کمتر از حدود 1 کیلوهرتز به کار میرود.
در حالی که قوة شنوایی آدم میتواند جهت صدا را تشخیص دهد در نشخیص فاصلة منبع صدا مشکل دارد. این امر بدان علت است که چیزهای کمی در موج صدا وجود دارد که اطلاعات این گونه را در اختیار بگذارد. شنوایی آدم به صورت ضعیفی در مییابد که منابع صداهای با فرکانس بالا نزدیکند صداهای با فرکانس پایین از فاصلة دورتری پخش میشوند. این به آن دلیل است که صداها در فاصلههای دور از میزان فرکانسشان کاسته میشود. پژواکشیوه ضعیف دیگری جهت تشخیص فاصله است و با استفاده از آن مثلاً میتوان ابعاد یک اتاق را حدس زد. جهت نمونه صداهای موجود در یک تالار بزرگ پژواکهایی با وقفة 100 میلی ثانیه دارند، حال آن که برای یک دفتر کار کوچک این میزان 10 میلی ثانیه است. بعضی از موجودات با مصرف از دستگاه طبیعی تشخیص فاصلة صوتی مسألة فاصلهیابی را حل کردهاند. مثلاً خفاشها و دلفینها صداهایی مثل تیک جیغ تولید میکنند که از سوی اشیاء نزدیک بازتابیده میشوند. با اندازهگیری میزان وقفة بازتاب این صداها این جانوران میتوانند با دقت 1سانتیمتر اشیاء را مکانیابی کنند. تجربیات نشان دادهاند که بعضی آدم ها به خصوص نابینایان تا میزان کمی ازروش مکانیابی با مصرف از پژواک استفاده میکنند.
2- ویژگیهای امواج صوتی
معمولا جهت درک یک صوت پیوسته مثل نت یک وسائل موسیقیایی سه بخش مجزا را باید تشخیص داد: بلندی صدا، زیری بمی صدا (پیچ) و طنین صدا. بلندی همانگونه که قبلاً توضیح داده شد معیاری جهت شدت موج صوتی است. پیچ، فرکانس جزء اصلی صدا – فرکانسی تکرار موج صوتی بوسیله خودش – میباشد.
طنین صدا از دو جزء قبلی پیچیدهتر است با تعیین محتوای همساز صدا تعیین میگردد. شکل شمارة 3 دو موج را که هر دو از جمع یک موج سینوسی یک کیلوهرتزی با دامنة یک یک موج سینوسی سه کیلوهرتزی با دامنة یک دوم به وجود آمدهاند نشان میدهد. فرق آنها در آن است که در شکل b جزء با فرکانس بالاتر ابتدا معکوس شده و پس با موج دوم جمع شده است. علیرغـم موجهای در دامنة زمان زیاد مفرق این دو صوت یکسان به نظر میرسند. این به خاطر آن است که شنوایی آدم بر طبـق دامنة فرکانسهاست و نسبت به فاز آنها بسیار غیر حساس است. شکل موج صوتی در دامنة زمان فقط به صورت غیر مستقیم با شنوایی رابطه دارد اکثرا ٌ ُ در سیستمهای صوتی در نظر گرفته نمیشود.
عدم حساسیت گوش به فاز صدا با توجه بهراهنمای پخش شدن آن در محیط قابل درک است. فرض کنید که شما در یک اتاق به صحبتهای فردی گوش میدهید. بیشتر صداهایی که گوش شما دریافت میکند حاصل بازتاب صدای اصلی از دیوارها، سقف کف اتاق است. از آنجا که انتشار صدا بستگی به فرکانس آن دارد و میرایی ،بازتاب و پایداری در مساوی صدا بر روی آن تأثیرگذار است فرکانسهای مفرق ی از مسیرهای مفرق به گوش میرسد. این به این معنی است که وقتی شما جای خود را در اتاق عوض میکنید فاز هر یک از فرکانسها تغییر میکند. چون گوش این تغییر فازها را نادیده میانگارد با وجود تغییر مکان شما تغییری در صدای شخص حرف کننده احساس نمیکنید. از دیدگاه فیزیکی فاز یک سیگنال صدا در وقت پخش در یک محیط پیچیده به صورت تصادفی تغییر میکند. از طرف دیگر گوش به فاز صدا غیر حساس است زیرا این جزء دارای اطلاعات قابل استفادة زیاد کمی میباشد.
شکل شمارة 3 – تشخیص فاز توسط گوش آدم . گوش آدم نسبت به فاز نسبی سینوسیهای مرکب زیاد غیر حساس است. جهت نمونه این دو موج یکسان به نظر خواهند رسید، زیر دامنة اجزاء آنها یکسان است چنانچه چه فاز نسبی آنها مفرق است.
در حالت کلی نمیتوان گفت که گوش نسبت به فاز کاملاً ناشنواست. جهت چه که تغییر فاز میتواند باعث تغییر آرایش زمانی یک سیگنال صوتی شود. ولی چنین امری یک پدیدة نادر است که در محیطهای شنیداری طبیعی اتفاق نمیافتد.
فرض کنید از یک نوازندة ویولون خواستهایم نتی را بنوازد. وقتی که موج صوتی ایجاد شده بر روی اسیلوسکوپ نشان داده شود یک موج دندانهارهای مانند شکل شمارة 4 (a) مشاهده میشود. شکل شمارة 4 (b) نشان میدهد که این صوت چطور بوسیله گوش دریافت میشود. گوش یک فرکانس اساسی (در مثال شکل 220 هرتز) را و همسازهایی را در 440، 660، 880 و… هرتز دریافت میکند. چنانچه این نت بر روی وسائل دیگری نواخته شود گوش هنوز همان 220 هرتز (همان فرکانس اساسی) را دریافت میکند. از این لحاظ دو صوت مشابهند که گفته میشود این دو صوت پیچ یکسانی دارند اما چون دامنة همسازها مفرق است دو صوت یکسان نیستند گفته میشود که طنین دو صوت مفرق است.
شکل شمارة 4 – موج صوتی ویولن. ویولن موج دندانهارهای ایجاد میکند (شکل a)، صدای دریافت شده حاوی فرکانس اساسی همسازهای آن است (شکل b)
گفته میشود که طنین صدا از روی شکل موج صوتی تعیین میگردد. این مسأله درست است اما کمی گمراه کننده است. حس طنین صدا از روی میزان هارمونیکهای تشخیص داده شده بوسیله گوش تعیین میگردد. در حالی که هارمونیکها از روی شکل موج صوتی تعیین میگردد عدم حساسیت گوش به فاز رابطه را زیاد یک طرفه میکند. به همین دلیل هر موج صوتی فقط یک طنین دارد حال آن که یک زنگ ویِژگزینشه متعلق به تعداد بینهایتی از موجهای صوتی است.
گوش بیشتر برای شنیدن هارمونیکهای اساسی تنظیم شده است. اگر یک شنونده به صدایی که حاصل ترکیب دو موج صوتی سینوسی 1 کیلوهرتز 3 کیلوهرتز است گوش دهد آن را مطلوب طبیعی توصیف خواهد کرد حال آن که اگر از موجهای 1 کیلوهرتزی و 3.1 کیلوهرتزی مصرف شود برای شنونده شکایت برانگیز خواهد بود. این مسأله اساسی برای اندازهها اختلافهای استاندارد وسائل های موسیقیایی فراهم میآورد.
3- شیوه های دیجیتالی ذخیرة صدا
در طراحی یک سیستم صوتی دیجیتال دو پرسش وجود دارند که باید جواب داده شوند: 1- چقدر ضروری است صوت خوب به نظر برسد؟ 2- چه نرخ دادهای قابل تحمل است؟ جواب به این سوال ها معمولا به یکی از این سه گزینش منجر میشود: اول موسیقی با وفاداری بالا که در آن کیفیت صدا مهمترین چیز است تقریباً هر نرخ دادهای قابل قبول است. دوم رابطه تلفنی که نیازمند طبیعی به نظر رسیدن صحبت یک نرخ دادة پایین جهت کاهش هزینة سیستم است. سوم حرف جمع و جور شده که در آن کاهش نرخ داده بسیار مهم است میزان ی غیر طبیعی به نظر رسیدن کیفیت صدا قابل تحمل است. این مورد در بر دارندة ارتباطات نظامی، تلفنهای سلاما و حرف ذخیره شده به صورت دیجیتال برای پست الکترونیکی صوتی کاربردهای چند رسانهای است.
شکل شمارة 3 بده بستانهای موجود در انتخاب هر یک از این سه نحوه را نشان میدهد.
در حالی که موسیقی نیازمند پهنای باند 20 کیلوهرتز است صحبتی که طبیعی به نظر برسد فقط به پهنای باندی در حدود 3.2 کیلوهرتز نیازمند است. در این حال هر چند پهنای باند به اندازة 16% میزان اولیه محدود میشود اما تنها 20% اطلاعات اولیه از دست میرود.
سیستمهای رابطه راهدور اکثرا از نرخ نمونهبرداری در حدود 8 کیلوهرتز استفاده میکنند که اجازة انتقال حرف را با کیفیتی در میزان طبیعی میدهد اما چنانچه از آن برای انتقال موسیقی استفاده شود تا میزان بالایی از کیفیت آن از دست میرود. شما ابه احتمال زیاد لاً با فرق این دو میزان آشنایی دارید: ایستگاههای رادیویی اف.ام با پهنای باندی در حدود 20 کیلوهرتز کار به پخش میکنند حال آن که ایستگاههای ای.ام محدود به 3.2 کیلوهرتز هستند . صحبت و صداهای معمول روی ایستگاههای نوع دوم طبیعی به نظر میرسد حال آن که موسیقی این گونه نیست.
شکل شمارة 3 – نرخ دادة صوتی در مساوی کیفیت صدا. کیفیت صدای یک سیگنال صوتی دیجیتال به نرخ دادة آن که مساوی با حاصلضرب نرخ نمونهبرداری آن در تعداد بیتهای آن در هر نمونه بستگی دارد که به سه بخش تقسیم میشود: موسیقی باوفاداری بالا (706کیلوبیت بر ثانیه)، حرف با کیفیت تلفن (64کیلوبیت بر ثانیه) وحرف جمع و جور شده (4 کیلوبیت بر ثانیه)
سیستمهایی که فقط با صدا (و نه موسیقی) سر کار دارند میتوانند میزان دقت را از 16 بیت به 12 بیت بدون از دست رفتن دقتی قابل توجه کاهش دهند. این میزان میتواند با گزینش اندازة نامتساوی جهت گام میزان گزینی میتواند به 8 بیت در هر نمونه نیز کاهش یابد. یک نرخ نمونهبرداری 8 کیلوهرتز با دقت ای.دی.سی 8 بیت در هر نمونه به نرخ دادة 64کیلوبیت بر ثانیه میانجامد. این یک میزان نهایی جهت طبیعی به نظر رسیدن حرف است. دقت کنید که حرف نیازمند نرخ دادهای معادل 10% نرخ دادة موسیقی با وفاداری بالاست.
نرخ دادة 64 کیلو بیت بر ثانیه نمایانگر کاربرد نهایی نظریة نمونهبرداری و میزان گزینی جهت سیگنالهای صوتی است. راههای کاهش نرخ داده به اندازهای بیشتر از این مبتنی بر جمع و جور سازی جریان داده با حذف تکرارهای ذاتی سیگنال حرف است. یکی از کاراترین شیوه های موجود ال.پی.سی است که انواع و زیرگروههای زیاد دارد. بر اساس کیفیت سیگنال حرف مورد نیاز اینروش میتواند نرخ داده را تا اندازهای بین 2 تا 6 کیلو بیت بر ثانیه کاهش دهد.
- ۹۵/۰۳/۰۴