Descărcaţi o nouă variantă de corpus şi de scripturi de aici. Dezarhivaţi-le în /home/user/smt/naacl-fact/
Pregătirea de aliniere
wa-prep.shdurează câteva minute. Produce un director „corpus” în „tm-enro”
Alinierea corpusului
pentru direcţia engleză-română:
walign.sh 1pentru direcţia română engleză:
walign.sh 2durează o jumătate de oră pentru fiecare direcţie. Puteţi să le lansaţi în paralel folosind "screen". În urma alinierii aveţi două noi directoare „giza.en-ro” şi „giza.ro-en” în „tm-enro”
Extragerea echivalenţilor de traducere
train-tm-fact.shdurează aprox. 10 minute. În urma rulării în directorul „tm-enro” apare un director „model”. Fişierul de configurare a sistemului (moses.ini) se găseşte în directorul „model”.
Testarea sistemului
test-tm.sh tm-enro/model/moses.iniOptimizarea parametrilor
tune.shdurează aproximativ 3:30 h. În urma rulării, în fişierul „moses.ini” din directorul mert-enro veţi avea o variantă a sistemului cu parametrii optimizaţi pe datele de optimizare (dev-set)
Testarea sistemului optimizat
test-tm.sh mert-enro/moses.ini
No comments:
Post a Comment