السلام عليكم،
أعرّفكم بمشروعي لصنع خوارزمية تجذيع للغة العربية تكون سريعة ومتوفرة لجميع لغات البرمجة وقد وجدت ضالتي مع Snowball framework (http://snowballstem.org) . الخوارزمية بدأت فكرتها في إطار غوغل للتطوير عام 2014 مع مشروع Xapian .
الغاية الأساسية لهذا المجذع هي البحث وبالتالي لا يشترط أن يكون الجذع صحيحا لغويا ولكن يشترط أن يجمع أغلب كلمات العائلة.
البذرة الأولى للمجذع مستوحات من توثيق في موقع أعجوبة:
http://ift.tt/29wAixY
يمكن الإطلاع على المشروع وتجريبه في الرابط التالي:
http://ift.tt/29ve57q
الخوارزمية استعمالها سهل مثلا في البايثون يمكن استعمالها كما يلي (بعد تثبيتها):
from snowballstemmer import stemmer
ar_stemmer = stemmer("arabic")
ar_stemmer.stemWord(u"فسميتموها")
شفرة المصدر:
http://ift.tt/29wzVUd
لمن يريد المساهمة ، هناك أربع مجالات:
-
تحسين الخوارزمية الأساسية
-
إنشاز الخوارزمية إلى لغة برمجة جديدة مع توثيقها مثلا GO
-
ادماج الخوارزمية في مكتبات البحث والمعالجة المشهورة مثل NLTK و whoosh...
-
تحسين الموقع
from حسوب I/O - الأكثر شيوعاً http://ift.tt/29vdFOu
ليست هناك تعليقات:
إرسال تعليق
دائماً، رأيكم يهمنا،