نوع مقاله : مقاله پژوهشی
نویسنده
کارشناس ارشد شرکت فناوری اطلاعات وارتباطات رضوی
چکیده
کلیدواژهها
در چند دهه گذشته مساله بازشناسی الگوهای نوشتاری شامل حروف ارقام و سایر نمادهای متداول دراسناد مکتوب، به زبانهای مختلف توسط گروههای مختلفی از محققان مورد مطالعه قرار گرفته است و نتیجه این تحقیقات منجر به پیدایش مجموعه ای از روشهای سریع مطمئن موسوم به اُ.سی.آر شده که به معنای بازشناسی نوری حروف است. ازلحاظ کاربردی، اُ.سی.آربرنامه اى است که با استفاده از روشهاى گوناگون هوش مصنوعى، اسناد، مدارک، کتابها و سایر مکتوبات چاپی یا تایپ شده و حتی دستنویس را به متن قابل ویرایش وجستجو تبدیل می کند.( (C. Liu& K. Nakashima,2004
با توجه به آنکه حجم زیادی از اسناد کاغذی موجود، توسط اسکنرها یا دوربین ها به اسناد تصویری دیجیتالی تبدیل می شوند؛ ذخیره سازی، بازیابی و مدیریت کارآمد این آرشیوهای تصویری، در بسیاری از برنامه ها نظیر اتوماسیون اداری و کتابخانه های دیجیتالی اهمیت فراوانی دارند. در نتیجه دستیابی به الگوریتمهای مؤثر به منظور آنالیز تصویری اسناد، یک نیاز اساسی به حساب می آید. قابل ذکر است که اُ.سی.آر به عنوان یکی از شاخه های فعال در شناسایی الگوی آنالیز تصویر اسناد و پردازش تصاویر می باشد که تصاویر حاوی متن را به متن قابل جستجو تبدیل می کند.
هنگامی که یک سند متنی اسکن می شود، رایانه این متن را به صورت یک تصویر گرافیکی تشخیص می دهد. در نتیجه کاربران قادر نخواهند بود که متن موجود در تصویر سند را ویرایش کرده، مطالعه نموده و یا مورد جستجو قرار دهند. اینجاست که با کمک فناوری اُ.سی.آر محتویات تصاویر قابل شناسایی شده و به صورت یک فایل در رایانه ذخیره می گردد.
لذا چنین قابلیتی موجب حذف یک فرایند وقت گیر، یعنی واردکردن دوباره اطلاعات موجود درنسخه چاپی می شود، ولی اگر نسخه ی اسکن شده ناقص باشد یا حاوی " نشانه های زیر و زبری " یا نویسه های غیرقابل تشخیص باشد، ممکن است نتیجه کار، قابل پیش بینی نباشد.( R.Plamondon&N.Srihari,2000)
شکل (1) بیانگر چرخه سیستم بازشناسی نوری حروف است. مطابق شکل در سیستم بازشناسی نوری حروف
تصاویر، اسکن شده و سپس از طریق الگوریتمهای پردازش تصویر -که در بخش بعدی مقاله به صورت کامل تشریح می شوند- سیستم بازشناسی نوری حروف، متن اسکن شده را خوانده محتویات آن را شناسایی نموده و در مرحله پایانی به صورت یک فایل دیجیتالی قابل ویرایش از اطلاعات سند (مثلاً به فرمت MS- Word) تبدیل می نماید.
شکل 1- شمای کلی سیستم اُ.سی.آر
در سال 1929، تاوشچ[3] در آلمان و در سال،1933 هندلی در آمریکا ابداعاتی در زمینه سیستم بازشناسی حروف ثبت نمودند. اینها اولین ایده های شناسایی حروف هستند . این روش، تطبیق الگو نام دارد و به این صورت کار می کند که به هر حرف، نور تابیده می شود و نور باز تابیده شده از حروف، از قالب های مکانیکی عبور داده می شود. هرگاه نوری از قالب عبور نکرد، حرف تشخیص داده می شود. از سال 1951، در آمریکا ایده اُ.سی.آر به عنوان یک پدیده قابل پیاده سازی پذیرفته شد. از این زمان به بعد تحقیقات گسترده ا ی بر روی این فناوری انجام گرفته است و در نتیجه سیستمهای تجار ی عرضه شده اند که دارا ی قابلیتهای خوبی هستند. سیستمهای تجاری عرضه شده را می توان به سه نسل زیر تقسیم بندی نمود: (Gonzalez &Woods,2002)
سیستمهای نسل اول در اوایل دهه 1960 به بازار آمدند که نتیجه تحقیقات دهه 1950 بودند. این سیستم ها فقط قابلیت تشخیص کاراکترهای خاص با اندازه و فونت مشخصی را داشتند. در آنها از روشهایی استفاده شده بود که نسبت به تغییر جا کاراکترها، اندازه ودوران آنها فوق العاده حساس بودند. شاخص ترین سیستم این نسل، NCR 420 بود که می توانست اعداد و پنج نماد دیگر را تشخیص دهد. (Gonzalez &Woods,2002)
سیستمهای نسل دوم در اواسط دهه 1960 به بازار آمدند و می توانستند بعضی از کاراکترهای دست نویس مانند اعداد را تشخیص دهند. RETINA یکی از این سیستم ها بود. (Gonzalez &Woods,2002)
سیستمهای نسل سوم مربوط به اواخر دهه 1960 هستند که باهدف تشخیص کاراکترهایی با کیفیت چاپ پایین و همچنین متون دست نویس لاتین ساخته شدند . این نسل تا به امروز هم ادامه دارد و فعالیتهای گسترده ای در این زمینه در حال انجام است. امروزه سیستمهای اُ.سی.آر قادر به تشخیص دقیق کاراکترهای تایپی لاتین با انواع فونتها و در اندازه های متفاوت هستند (با دقتی در حدود99%) ولی هنوز در مورد تشخیص متون دست نویس لاتین و یا فونتهایی که در آنها ازخطوط خمیده استفاده می شود (مثل فارسی و عربی) مشکلات زیادی وجود دارد(Gonzalez &Woods,2002)
امروزه در اکثر کشورهای پیشرفته استفاده از سیستمهای اُ.سی.آر در فرایندهای اداری کاملاً مرسوم است. حتی در بعضی از این کشورها به منظورتسریع بهینه سازی و کم کردن هزینه فرایند ورود اطلاعات به رایانه استفاده از این سیستمها به صورت قانون درآمده است وادارات وسازمانهای دولتی ملزم به استفاده از این نوع نرم افزار هستند. البته با توجه به طبیعت پیدایش این سیستم لزوم استفاده از آن در سازمانهای دولتی وادارات امری واضح و آشکاراست؛ چرا که این سیستم یک نرم افزار پایه و اساسی برای تمام سیستمهای اتوماسیون اداری می باشد. از آنجا که تمام کشورهای پیشرفته به سوی ایجاد یک دولت الکترونیک پیش می روند لذا ورود چنین سیستمی را به بدنه دولت خود به راحتی پذیرفته اند. با وجود آنکه سیستمهای الکترونیکی امروزی تا حدودی بوروکراسی را در فرایندهای اداری کاهش داده است؛ ولی طبق پیش بینی های انجام شده تا قرن آینده استفاده از اسناد مکتوب از فرایندهای اداری حذف نخواهد شد. به همین دلیل ورود اطلاعات اسناد مکتوب موجود فعلی و همچنین اسنادی که به روز تولید می شوند وجود چنین سیستمی را میطلبد.( Chang&Thouin,2006)
در عصر حاضر با ظهور شاخه های جدید علم و گسترش شاخه های موجود و نیز رشد تعداد دانشجویان و محققان، کتابخانه های سنتی دیگر به تنهایی گنجایش نگهداری حجم عظیم کتابهای موجود و نیز توان پاسخگویی به خیل افراد متقاضی استفاده کننده از این منابع را ندارند.
در کتابخانه های سنتی در زمان واحد تنها یک نفر می تواند از یک جلد کتاب استفاده نماید. به عبارت دیگر به ازای هر نفر متقاضی یک عنوان کتاب، می بایست یک جلد از آن در کتابخانه موجود باشد که این مساله در عمل غیر ممکن است. از سوی دیگر در کتابخانه های سنتی مشکلاتی از قبیل محدودیت فضای نگهداری و گسترش آن و خطر وقوع حوادثی مانند آتش سوزی، زلزله، جنگ و ... همواره وجود دارد
یکی از کاربردهای فناوری اطلاعات و ارتباطات که می تواند نقش مهمی در زمینه گسترش ارائه و اشتراک منابع و اطلاعات داشته باشد، در ظهور کتابخانه دیجیتالی متجلی شده است. کتابخانه دیجیتالی مجموعه ای از اطلاعات سازماندهی شده در قالب الکترونیکی است که در آن :
· اطلاعات دیجیتالی باید مبتنی بر اصول مجموعه سازی، گردآوری یا تولید شده باشند.
· اطلاعات دیجیتالی باید به صورت منسجم و مناسبی نظیر دیگر منابع اطلاعاتی در کتابخانه ها توسط استفاده کنندگان قابل دسترس و بازیابی باشند.
· اطلاعات دیجیتالی باید در مدت زمان طولانی به مثابه منابع اطلاعاتی پایدار قابل دسترس باشند.
اما در ایران همواره یکی از بزرگترین مسائل فراروی سیستم های کتابخانه های دیجیتالی انتقال اطلاعات مندرج از روی اسناد موجود در کتابخانه ها به سیستم های رایانه ای است. در بسیاری از موارد از روش داده آمایی دستی این فرایند به انجام می رسد که علاوه بر صرف زمان و هزینه زیاد "اطلاعات داده آمایی"شده نیز از دقت کافی برخوردار نبوده و به موقع در دسترس نمی باشند. در راستای رفع این مشکل سیستم اُ.سی.آرضمن کاهش زمان و هزینه داده آمایی، دقت اطلاعات وارد شده به سیستم های رایانه ای را نیز افزایش می دهد. بدین ترتیب با در اختیار داشتن اطلاعات دقیق و به موقع بسیاری از موارد از جهات مختلف در کتابخانه های دیجیتالی رفع می گردد.
مزایای بکارگیری سیستمهای اُ.سی.آردر کتابخانه های دیجیتالی طبق نظر تیمساری (1371) عبارتند از :
• افزایش چشمگیر سرعت دسترسی به اطلاعات: زیرا درمتن بر خلاف تصویر،امکان جستجو و ویرایش وجود دارد.
• کاهش فضای ذخیر ه سازی: زیرا حجم فایل متنی استخراج شده از یک تصویر، معمولا ًبسیار کمتر از حجم خود فایل تصویری است.
با توجه به ماهیت سیستماُ.سی.آر و قابلیتهای بسیار آن، کتابخانه های دیجیتالی می توانند در حوزه فعالیت و چارچوب عملکرد خود از این سیستم بهره ببرند. طبق آمارگیری انجام شده در کشورهای پیشرفته 65 درصد عملیات تایپ اسناد در سازمانها و ادارات ، دوباره کاری می باشد (عزمی،1378). فقط با توجه به این درصد بالا در کشورهای پیشرفته به راحتی به لزوم وجود این سیستم می توان پی برد. بدین منظور در زیر برخی از کاربردهای سیستم اُ.سی.آر در کتابخانه های دیجیتالی به صورت موردی ذکر گردیده است:
با بکارگیری ابزار های آرشیو، یک بایگانی از تصاویر با قابلیت های جستجو روی فیلدهای مورد نظر خواهید داشت و در واقع در سیستم مدیریت اسناد الکترویکی با بکارگیری اُ.سی.آر مشکلات مربوط به ویرایش وجستجوی اسناد حل خواهد شد و نیازی به صرف هزینه های زیاد برای ورود اطلاعات مجدد در سیستم نخواهید داشت. در ذیل برخی از مزایای بکارگیری فناوری اُ.سی.آر در سیستم مدیریت اسناد الکترونیکی مطرح شده است که عبارتند از :
· دریافت و بازشناسی متن تصاویر اسناد با فرمتهای مختلف به صورت تک قاب یا چند قاب
· مدیریت و بازشناسی دستههای تصویری بزرگ از اسناد
· تقیسمبندی خودکار تصویر سند به ناحیههای متنی، تصویری و جدولی
· ویرایشگر متن اسناد با امکانات لازم جهت تطبیق اصل تصویر با متن بازشناسی شده
· تولید خروجی های متفاوت با فرمتWORD و یاPDF
· با فناوری اُ.سی.آرتصاویر صفحات کتاب به متن رایانه ای تبدیل شده و امکان ویرایش متن، جست وجوى متن، چاپ مجدد متن با کیفیت بالا و انتقال الکترونیکى سریع آن (با توجه به آنکه حجم اطلاعات متنى بسیار کمتر از اطلاعات تصویرى است) فراهم مى شود. این مورد را نیز در نظر بگیرید که به منظور ایجاد نسخ الکترونیکى از کتاب هاى کتابخانه اى که ده ها هزار کتاب و میلیون ها صفحه مطلب در آن قرار دارد چه هزینه های مالى و زمانى هنگفتى را باید براى تایپ این منابعصرف نمود.
· اُ.سی.آر به ویژه برای دیجیتالی نمودن منابع و نسخ خطی بسیار مفید است، چرا که برای نسخ خطی اصالت منبع با حفظ شکل و قالب اصلی متون و نه به صورت تایپ شده باید حفظ شود. در مراحل بعد می توان با این برنامه مندرجات متون نسخ خطی را کاوش نمود. بنابراین می توان گفت در واقع سیستم اُ.سی.آر، کلید اصلی ایجادیک کتابخانه دیجیتالی می باشد که ورود متون کتابها، مجلات، مقالات و منابع مکتوب را در این کتابخانه ممکن می سازد .
استفاده از اُ.سی.آر می تواند نقش عمده ای در کاهش هزینه ها و زمان بری ورود اطلاعات داشته باشد.اُ.سی.آر قادر به ایجاد بی واسطه فایلهای استاندارد از مطبوعات و روزنامه های چاپ شده است.
4-7 : سیستم اتوماسیون اداری
اُ.سی.آر درسیستم اتوماسیون امکان اصلاح، جستجو و یا استفاده دوباره از متن نامه های اسکن شده در بین مجموعه داده ها را به راحتی فراهم می آورد و ار نیازهای اساسی سیستم اتوماسیون به شمار می آید.
در یک تقسیم بندی کلی می توان سیستمهای اُ.سی.آر را از لحاظ نوع الگوی ورودی به دو گروه اصلی تقسیم کرد:
الف‐ سیستمهای بازشناسی متون چاپی
هر یک از این گروهها تکنیکهای خاص خود را دارند. همچنین از جنبة نحوة ورود اطلاعات، سیستمهای اُ.سی.آر به دو دستة زیر تقسیم بندی می شوند:
بازشناسی برخط نوشتار بدلیل راحت تر بودن نوشتن از تایپ کردن، عدم امکان تایپ در بعضی مکان ها، عدم وجود یک صفحه کلید کامل روی رایانه های کوچک و سخت بودن تایپ نویسه ها در بعضی زبان ها به دلیل تعداد زیاد آنها مورد توجه خاصی قرارگرفته است.
در روشهای برخط از داده های یک بعدی استفاده می شود. در حالت برخط می توان قسمتهای مختلف متن را ذخیره کرد و سپس عملیات شناسائی را توسط روشهای برون خطی انجام داد. روشهای برخط دارای مزیتهای فراوانی هستند که تعدادی از آنها عبارتند از:
1- ترتیب نوشتن و
2- جهت و نحوة حرکت قلم موجود که می تواند جهت شناسائی مورد استفاده قرار گیرد . همچنین برداشتن و گذاشتن قلم نیز می تواند جهت شناسائی ضربه ها مورد استفاده قرار گیرد .
· تحلیل کاراکترها با استفاده از ترکیب که مبتنی بر مدل سازی متون تولید شده دست نویس است.
· و استفاده از روشهای برون خطی جهت شناسائی برخط.
2-8: سیستمهای برون خط
باز شناسی برون خط هم شامل بازشناسی نوشتار و هم نوشتار دست نویس می شود ولی بازشناسی برخط فقط در بازشناسی دست نوشته کاربرد دارد. در بازشناسی برون خط، تصویر اسکن شده به عنوان ورودی در نظر گرفته می شود .
§ استفاده از ویژگیهای آماری و طبقه بندی کننده های متداول آماری
§ استفاده از ویژگیهای ساختاری و طبقه بندی کننده مناسب
§ کاربرد منطق فازی
§ کاربرد شبکه های عصبیS.D.Connell, 2000))
شامل کلیة اعمالی که روی سیگنال تصویری خام صورت می گیرند تا موجب تسهیل روند اجرای فازهای بعدی گردند؛ مانند باینری کردن تصویر، حذف نویز، هموارسازی، نازک سازی، تشخیص زبان و فونت کلمات و نظایر اینها.
عبارت است از روشهایی که بخشهای مختلفی همچون پاراگرافها، جملات یا کلمات و حروف را از تصویر سند استخراج مین مایند.
مجموعة کلیة محاسباتی است که روی الگوهای بدست آمده از مرحلة پیش پردازش انجام می شود تا بردار ویژگیهای متناظر با هر الگو تعیین گردد.
د‐ طبقه بندی و بازشناسی (با یک یا چند طبقه بندی کننده)
شامل روشهایی برای متناظر ساختن هر یک از الگوهای بدست آمده از مرحلة استخراج ویژگیها با یکی از کلاسهای فضای الگوهای مورد بحث است که از طریق کمینه ساختن فاصلة بردار ویژگیهای هر الگو نسبت به یکی از بردارهای مرجع موجود در پایگاه داده های سیستم انجام می گیرد.
مانند مجموعه لغات معتبر، اطلاعات آماری مربوط به رخداد حروف، اطلاعات دستوری و معنایی.
شکل2، یک سیستم اُ.سی.آررا نمایش می دهد. البته به این نکته توجه گردد که بسته به الگوریتم کلی بکار رفته و سطح انتظارات از عملکرد نرم افزار، ممکن است برخی سیستمها فاقد یک یا چندمورد از مراحل فوق باشند. (٢٠٠١ ،Arica)
شکل 2- بلوک دیاگرام یک سیستم
نگارش فارسی ویژگیهای منحصر به فردی دارد که آن را کاملاً از نگارش لاتین متمایز می سازد .
به منظور فعالیت در زمینة اُ.سی.آر فارسی، آگاهی از قوانین نگارشی و نحوة چاپ حروف در این زبان امری ضروری است. در اینجا به ویژگیهای کلی نگارش فارسی اشاره می شود:
الف‐ متون فارسی برخلاف متون لاتین از چپ به راست نوشته می شوند.
ب‐ در کلمات فارسی برخی از حروف از یک یا دو طرف به حروف مجاور خود اتصال داشته و برخی نیز به صورت مجزا نوشته می شوند. درنتیجه هر کلمه ممکن است شامل یک یا چند بخش متصل باشد که (زیرکلمه) نامیده می شود. شکل(3-الف)
پ‐ حروف فارسی می توانند چهار موقعیت مجزا و در نتیجه چهار شکل متفاوت نگارش داشته باشند: حروف ابتدایی، میانی، انتهایی و مجزا .(شکل3-ب)
ت‐ حروف واقع در یک کلمه ممکن است همپوشانی داشته باشند، بدین معنی که نتوان با رسم خطوط عمودی، حروف را بطور کامل از یکدیگر مجزا نمود (شکل3-ج)
ث‐ در برخی از فونتها بعضی از حروف، در دو محل (از یک سمت) به یکدیگر اتصال دارند. (شکل3-د)
ج‐ برخی از حروف بین یک تا سه عدد نقطه دارند که ممکن است در بالا یا پایین بدنة حرف واقع باشند.
چ‐ بعضی از حروف بدنة مشابه دارند و تفاوت آنها تنها در تعداد و محل قرارگیری نقاط در آنهاست.(شکل3-ه)
ح‐ حروف فارسی می توانند در بالا یا پایین بدنة خود دارای اعراب باشند. سه اعراب ‐َ ‐ِ ‐ُ در زبان فارسی، اعرابهای اصلی بوده و اعراب ‐ً در برخی کلمات عربی رایج در زبان فارسی دیده می شود.کلمات عربی دارای اعراب ‐ٌ و ‐ٍ در زبان فارسی عمومیت نیافته اند. هر چند کاربرد اعراب در زبان فارسی نسبت به زبان عربی بسیار محدودتر است، اما در مواردی که کلمه ای نامتداول باشد و یا بدلیل تشابه نگارشی آن با کلمة دیگر، تأکید بر تلفظ صحیح آن باشد، مورد استفاده قرار می گیرند.
خ‐ در بالای بدنة یک حرف ممکن است علامت تشدید وجود داشته باشد.
د‐ برخی از حروف شامل همزه هستند ("ئا"، "أ"، "ؤ"، "بة").
ذ‐ حروفی که از طرف چپ قابلیت اتصال به حرف مجاور خود را دارند، می توانند به صورت کشیده نوشته شوند. (شکل3- و) (یگانه، 1383)
عواملی چون پیچیدگیهای مربوط به متون فارسی از دیدگاه پردازش سیستمی در اُ.سی.آر و علاوه بر آن وجود جمعیت کم کاربر زبان فارسی سبب شده سامانههای نویسهخوان قدرتمندی برای زبان فارسی نداشته باشیم. البته قابل ذکر ست در سالهای اخیر تلاشهای قابل توجه ای از سوی برخی شرکتهای فعال در زمینهٔ پردازش تصویر انجام شده که برخی از آنها منجر به محصولات قابل قبولی شده است.
برخی از تحقیقاتی که در زمینه اُ.سی.آر فارسی انجام شده به شرح زیر می باشد:
· سیستم بازشناسی حروف دست نویس فارسی بر اساس الگوریتم آموزش فعال بااستفاده از کمیته ای از دسته بندها (خیرخواه، 1386)
· پیاده سازی سیستم اُ.سی.آر فارسی با استفاده از عملگرهای موروفولوژی (محمد جواد فدایی اسلام، 1385)
· بازشناسی بر خط حروف مجزای فارسی با شبکه فارسی (رضوی؛ کبیر،1383)
· سیستمی جهت بازشناسی متون چاپی فارسی که با استفاده از رویکرد ترکیبی (بکارگیری هر دو رویکرد مبتنی بر جداسازی کلمات و مبتنی بر بازشناسی کلمه به عنوان یک الگوی واحد) ارائه نموده است. (عزمی، 1378)
· الگوریتمی برای قطعه بندی برخط کلمات دستنویس فارسی. منظور از قطعه بندی در اینجا یافتن قطعاتی است که بوسیلة آنها بتوان کلیة کلمات را ایجاد نمود. بدین معنی که مجموعه کلمات نوشته شده توسط افراد مختلف به اجزاء ساده تری تقسیم می شوند تا برای بازشناسی مورد استفاده قرار گیرند. (مرتضی پور، 1378)
· روشهایی برای شناسایی کلمات دستنویس فارسی در یک مجموعه محدود که بدون قطعه بندی کلمات ارائه شده است. این روشها در سطح کلمات یا زیر کلمات عمل می کنند.( مسروری، 1373)
· تشخیص حروف دست نویس فارسی به وسیلة سیستم هایبرید نور و فازی. (بنیاسدی، 1373)
با توجه به مطالب ذکر شده و براساس پیچیدگیهای خاص اُ.سی.آر و نوشتار و الفبای فارسی و تعدد سبک های نوشتاری فارسی برای اشخاص مختلف که حروف گوناگون را به اشکال متنوع تحریر می کنند وتحقیقات ومطالعات انجام شده، مدتی است نرم افزار اُ.سی.آر گسسته فارسی طراحی و نوشته شده و مورد استفاده قرارگرفته است. با بررسی وضعیت کنونی اُ.سی.آر در جهان و وضعیت کنونی آن در ایران، اُ.سی.آر پیشبینی کننده نیازهای آتی کتابخانه های دیجیتالی است. به این منظور برخی از زیرساختها به منظور ایجاد ساز وکار لازم جهت ارزیابی و کنترل کیفی برنامههای نویسهخوانی نوری، ایجاد انگیزه در بخش خصوصی و دانشگاهی برای رقابت و حضور فعال تر، پوشش دادن به نیازهای علمی کاربران در سطوح مختلف و بررسی جایگاه و نقش منابع در نویسهخوانی نوری و تسهیل حرکت به سمت منابع بازاُ.سی.آر مورد نیازاست.
------------------------------------------------------------------------------------------------------------------
[1]- بهاره برهانی یزدی، کارشناس ارشد شرکت فناوری اطلاعات وارتباطات رضویbahar_274_m@yahoo.com.ph