رضائي نژاد،حبيب

عنوان

استفاده از الگوريتم CRF براي تشخيص و تصحيح چسبيدگي كلمات در زبان فارسي

عنوان به انگليسي

Using CRF Algorithm to Detect and Correct AdherenceWords in Persian

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر

محل تحصيل

تهرا ن شمال

سال تحصيل

۱۳۹۶

تاريخ دفاع

۱۳۹۶/۸/۲۶

وضعيت پايان نامه

۱۶/۶

مشخصات ظاهري

۹۴ص.

استاد راهنما

فراهي، احمد

كتابنامه

۸۵ص.در۱ص.

توصيفگر فارسي

ادگيري ماشين , ميدان تصادفي شرطي، , چسبيدگي كلمات

توصيفگر لاتين

Machine Learning , ConditionalRandom field , Adherence of words

چكيده

مسئله تشخيص مرز كلمات، از همان ابتدا به عنوان يكي از گام هاي اساسي و مهم در فرآيند پردازش زبان طبيعي فارسي موردتوجه بوده است. همچنين نيم فاصله نيز، يكي از كاراكترهاي مهم در تعيين مرز كلمات فارسي است. با توجه به اينكه در زبان فارسي مرز ميان كلمات بافاصله از يكديگر مشخص مي شوند، درصورتي كه فاصله به درستي رعايت نشود، باعث عدم خوانايي نوشته و مانع از اجراي ديگر الگوريتم هاي پردازش زبان طبيعي مي شود. همچنين با توجه به رعايت نشدن فاصله ها و نيم فاصله هايي كه هم اكنون در متون فارسي موجود است، نياز به يك سيستم تشخيص و تصحيح فاصله و نيم فاصله احساس مي شود. روش هاي گوناگوني براي قطعه بندي كلمات مورداستفاده قرار مي گيرند كه هركدام از آن ها مزايا و معايبي نسبت به يكديگر دارند. دربسياري از روش ها تركيبي از دو يا جند روش براي بالا بردن دقت قطعه بندي بهره مي گيرند كه پركاربردترين آن ها عبارت اند از: روش هاي مبتني بر فرهنگ واژگان، روش هاي مبتني بر آمار، روش هاي مبتني بر قواعد و روش هاي يادگيري ماشين. در اين تحقيق از الگوريتم ميدان تصادفي شرطي كه مبتني بر يادگيري ماشين است در روش پيشنهادي مورداستفاده قرار مي گيرد. مي توان گفت كه در زبان فارسي از اين روش براي تشخيص و تصحيح فاصله و نيم فاصله در كلمات فارسي استفاده نشده و اين روش به عنوان اولين بار در زبان فارسي است. روش پيشنهادي ما با تشخيص چسبيدگي حروف در متون، آن ها را به صورت هوشمند اصلاح مي نمايد.

شماره ركورد

49600

لينک به اين مدرک :

https://lib.pnu.ac.ir/dL/search/default.aspx?Term=49600&Field=0&DTC=7