Monday, May 9, 2011

Tutorial model factorizat

Instalaţi PuTTY şi WinSCP ca să interacţionaţi mai uşor cu maşina virtuală. Dacă nu aveţi acces la maşina virtuală folosind Putty, este posibil ca VMWare Player să nu fie configurat corect. În cazul acesta, mai rulaţi odată instalarea VMWare Player cu opţiunea „Reparare”.

Descărcaţi o nouă variantă de corpus şi de scripturi de aici. Dezarhivaţi-le în /home/user/smt/naacl-fact/

Pregătirea de aliniere
wa-prep.sh
durează câteva minute. Produce un director „corpus” în „tm-enro”

Alinierea corpusului
pentru direcţia engleză-română:
walign.sh 1
pentru direcţia română engleză:
walign.sh 2
durează o jumătate de oră pentru fiecare direcţie. Puteţi să le lansaţi în paralel folosind "screen". În urma alinierii aveţi două noi directoare „giza.en-ro” şi „giza.ro-en” în „tm-enro”

Extragerea echivalenţilor de traducere
train-tm-fact.sh
durează aprox. 10 minute. În urma rulării în directorul „tm-enro” apare un director „model”. Fişierul de configurare a sistemului (moses.ini) se găseşte în directorul „model”.

Testarea sistemului
test-tm.sh tm-enro/model/moses.ini
Optimizarea parametrilor
tune.sh
durează aproximativ 3:30 h. În urma rulării, în fişierul „moses.ini” din directorul mert-enro veţi avea o variantă a sistemului cu parametrii optimizaţi pe datele de optimizare (dev-set)

Testarea sistemului optimizat
test-tm.sh mert-enro/moses.ini