السبت، 9 يوليو 2016

خوارزمية تجذيع عربية لعدّة لغات برمجة (Stemmer)

السلام عليكم،

أعرّفكم بمشروعي لصنع خوارزمية تجذيع للغة العربية تكون سريعة ومتوفرة لجميع لغات البرمجة وقد وجدت ضالتي مع Snowball framework (http://snowballstem.org) . الخوارزمية بدأت فكرتها في إطار غوغل للتطوير عام 2014 مع مشروع Xapian .

الغاية الأساسية لهذا المجذع هي البحث وبالتالي لا يشترط أن يكون الجذع صحيحا لغويا ولكن يشترط أن يجمع أغلب كلمات العائلة.

البذرة الأولى للمجذع مستوحات من توثيق في موقع أعجوبة:

http://ift.tt/29wAixY

يمكن الإطلاع على المشروع وتجريبه في الرابط التالي:

http://ift.tt/29ve57q

الخوارزمية استعمالها سهل مثلا في البايثون يمكن استعمالها كما يلي (بعد تثبيتها):

 from snowballstemmer import stemmer
 ar_stemmer = stemmer("arabic")
 ar_stemmer.stemWord(u"فسميتموها")

شفرة المصدر:

http://ift.tt/29wzVUd

لمن يريد المساهمة ، هناك أربع مجالات:

  • تحسين الخوارزمية الأساسية

  • إنشاز الخوارزمية إلى لغة برمجة جديدة مع توثيقها مثلا GO

  • ادماج الخوارزمية في مكتبات البحث والمعالجة المشهورة مثل NLTK و whoosh...

  • تحسين الموقع



from حسوب I/O - الأكثر شيوعاً http://ift.tt/29vdFOu

ليست هناك تعليقات:

إرسال تعليق

دائماً، رأيكم يهمنا،