Archivo mensual: mayo 2011

Opentrad itzultzaile automatikoa

Opentrad kode irekiko itzulpen automatikoko sistema da, 20 hizkuntza-bikote baino gehiagoren arteko itzulpenak egiten dituena. Besteak beste:

  • Gaztelania-Ingelesa
  • Gaztelania-Frantsesa
  • Gaztelania-Portugesa
  • Gaztelania-Galegoa
  • Gaztelania-Katalana
  • Portugesa-Galegoa
  • Gaztelania-Euskara

Opentrad gero eta erabiltzaile, enpresa eta erakunde publiko gehiagok erabiltzen dute, testuak eta dokumentuak itzultzeko, edota Interneten hizkuntza desberdinetan nabigatzeko. Beste erabiltzaile batzuk beren web-orri pertsonalak, enpresako web-orriak, blogak, eta abar ingelesez, gaztelaniaz, galegoz, portugesez, katalanez, … eskaintzeko erabiltzen dute.

Opentrad Partzuergoa ondorengo enpresek osatzen dute:

  • imaxin|software: software eta multimediako I+G+b arloko soluzio eta zerbitzu aurreratuak eskaintzen dituen enpresa da. CMMI-3 ziurtagiria du, eta ingeniaritza linguistikoan, lokalizazioan eta hezkuntzarako multimedia produktuetan espezializatuta dago.
  • Eleka Ingeniaritza Linguistikoa: ingeniaritza linguistikoaren arloan I+G+b proiektuak lantzen dituen enpresa da, garapen eta berrikuntza arloetan gehienbat. Eleaniztasunaren erronkari aurre egin behar dioten pertsonei, enpresei eta erakundeei soluzioak eskaintzen dizkie.

Aipatu enpresok Opentrad itzulpen-sistema osatzen duten Apertium eta Matxin itzulpen motoreen garapenean parte hartu zuten.

ERABILTZEKO GOMENDIOAK

  1. Itzulpena egin aurretik zuzendu testu originala.
    Itzultzaile bat ez da zuzentzaile bat. Hortaz, testu originalean dauden akatsek itzulpenaren kalitatean eragingo dute. Adibidez, “el tendria la libertad” esaldia itzuliz gero, “o *tendria a libertade” lortuko zen emaitza bezala. Izan ere, esaldi horretako “él” (izenordaina) eta “tendría” (aditza) hitzek azentu-marka eraman beharko lukete gaztelaniaz; baina ez daramatenez, itzultzaile automatikoak aritikulua eta hitz ezezaguna bezala identifikatu ditu, hurrenez hurren.
  2. Esaldi laburrak eta sinpleak erabili.
    Esaldi laburrek eta sinpleek itzulpenak zuzenak izaten laguntzen dute, horrela errazagoa baita esaldi anbiguoak sahiestea. Testu anbiguo batek itzulpen anbiguo bat emango du.
  3. Puntuazioa eta sintaxia..
    Puntuazioa eta sintaxia zaindu itzazu, adierazi nahi dena ongi ulertzeko eta transmititzeko ezinbesteko elementuak baitira.
  4. Lagunarteko esamoldeak eta esaera idiomatikoak saihestu.
    Itzultzaile automatikoak testua ongi ulertu dezan, sahiestu itzazu nahasmena sortu dezaketen esamolde idiomatikoak. Horrela, itzulpen-erroreak ere sahiestu egingo dira
  5. Itzulpena berrikusi.
    Prozesu automatizatuek hizkuntza soildu egin dezakete. Beraz, funtsezkoa da itzulpena berrikustea eta orraztea.ERABILER

ERABILERA

Itzultzaile honek bi aukera ematen ditu: bata diru kopuru bat ordainduz eta bestea doako on line itzultzailea. Guk doakoa aztertuko dugu.

Testu originala (Joseba Sarrionandia):

Nekez uzten du sorterria sustraiak bertan dituenak.
Nekez uzten du lurra zuhaitzak ez bada abaildu eta oholetan.
Ez du niniak begia uzten ez bada erroien mokoetan.
Nekez uzten du gezalak itsasoa ez hareak basamortua.
Ez du liliak udaberria uzten ez elurrak zuritasuna.
Sorterria nekez uzten du sustraiak bertan dituenak.

Opentrad itzultzaile automatikoa erabili eta gero:

Difícilmente deja País natal raíces. mismo Que sus si los árboles no la tierra abaildu y oholetan. No tiene niniak deja echado el ojo si no mokoetan erroien. Difícilmente gezalak el mar deja no el desierto las arenas sean. No tiene liliak la primavera blancura no la nieve. País natal difícilmente raíces mismo deja.

Ikus daitekeenez nahiko itzulpen eskasa ematen digu, akats ugari baititu. Lexikoaren ikuspegitik, hitz batzuk ez ditu ezagutzen (antza denez) eta ez ditu itzuli. Beste batzuetan esaldi baten hasiera eta amaiera non dagoen ez du zehazten. Morfologia aldetik, aditzak bai itzultzen ditu baina ez daude ez leku egokian ez modu egokian.

Iturriak:


Euskal Corpusa (SlideShare aurkezpena)


Euskal Corpusa

Sarrera

XX. mendeko euskara jasotzen duen corpus estatistikoa 4.658.036 testu-hitzez osatua da. Erabili izan den eta erabiltzen den euskararen lekuko eta erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea.

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.

Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu den, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.

Corpus osoa ORACLEko datu-base erlazionalean inplementatua dago.

Sailkapen-irizpideak:

  • Epea, garaia: lau garai nagusitan banatzen dira XX. mendeko argitalpenak:
    • 1900-1939: mende-hasieratik gerrak artekoa.
    • 1940-1968: gerraostean abiatu eta euskara batuaren sorrera artekoa.
    • 1969-1990: euskara batuak ekarritako aldaketarekin hasi eta Euskaltzaindiaren gomendioak eta arauak artekoa (eta Ibon Sarasolaren Hauta-Lanerako Euskal Hiztegia argitaratu artekoa).
    • 1991-1999: araugintza berriaren ondokoa.
  • Euskalkia:
    • Bizkaiera
    • Gipuzkera
    • Zuberera
    • Lapurtera-Nafarrera: biak bakarrean bilduta
    • Euskara batua
    • Sailkatu gabeak: atal honetan egunkari eta astekarietako artikuluak jasotzen dira, horien inbentarioa ez baita artikuluka egin, bestelako aldizkariekin egin den bezala, baizik argitalpena bere osoan harturik. Honela sailkatu dira, halaber, askoren jardunak jasotzen dituzten bertso-bildumak ere.
  • Testu-mota:
    • Saio-artikuluak: Euskera, Egan, Euzko Gogoa, Jakin bezalako aldizkarietako artikuluak banaka fitxatu dira inbentarioan, eta horietakoek osatzen dute multzo hau.
    • Administrazio-idazkiak
    • Ikasliburuak
    • Saio-liburuak
    • Literatura-prosa
    • Poesia
    • Antzerkia
    • Bertsoak
    • Ikerketa-lanak
    • Haur- eta gazte-literatura
    • Ahozkoak: ahozko jardunen transkripzioak
    • Liturgia
    • Egunkariak
    • Aldizkariak

Sailkapen hauek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan.

Autoreak eta izenburuak ere ageri dira, bai liburuen kasuan eta bai aldizkarietako artikuluenean, artikulua eta aldizkariaren fitxa jaso baita. Dena den, hauen araberako kontsultarik ez da oraingoz eskaintzen, besteak beste ausaz aukeratutako obra-zatiak jaso direlako, zati txikiak eta jarraitutasunik gabeko orrialdeak, eta, horren ondorioz, autore eta izenburu asko daude bertan, baina ez dute laguntza handirik eskaintzen bilaketan. Testu-zatiak SGML (Standard Generalized Mark-up Language) formatu estandarrean ezarri ditugu.

Hauek dira corpusaren ezaugarriak; baina badu balio erantsi bat: lematizatua da. Alegia, testu-hitz bakoitzari forma estandar bat erantsi zaio, hiztegi-sarrera moduko bat, eta horrek, besteak beste, erraztu egingo du kontsulta. Adibide batekin esateko, forma deklinatuei eta aldaerei lema bakarra ezarri zaienez, helduleku erosoa dugu orain lema hori: etxe. Etxe, etxea, etxien, echeco, etchetik bezalako testu-hitzak etxe galdetuz ikus daitezke, aldaeraren bat ahazteko arriskurik gabe.

Lematizazio hau, bestalde, ez da hitz bakunetara mugatzen; hitz soilez gain, hitz elkartuak, eratorriak eta bestelako hitz anitzeko unitate lexikalak ere markatu dira: etxe lema soilaren ondoan, etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain bezalako lemak ere adieraziz. Edo, hala soilaz gain, hala ere, hala eta guztiz ere, hala… nola, hala nola modukoak ere zehaztuz.

Horiek horrela, 101.585 lema desberdin aurkituko ditu erabiltzaileak, bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.

Nola erabiltzen da?

Edozein kontsulta egin aurretik, pantailaren ezkerreko aldean zerrendatuak ikus daitezke, bilaketa mugatzen lagun dezaketenak. Lema zein testu-hitza idatzi eta, dagokiona aukeratuta, hauen zerrenda eta forma bakoitzaren agerraldi-kopurua azaltzen dira.

Trunkatzeko, bi karaktere erabil ditzakegu:

% hitzaren edozein posiziotan ezar daiteke, idatzitakoaren aurreko, tarteko zein atzeko edozein osagai zerrendaratzeko.

eman% eskatuz,

aditz soilaz gain, horren eratorri guztiak ikusiko ditugu:

Aldiz, %eman galdetzen badugu, abala eman, abisu eman edo aditzen eman moduko lemak ere azalduko zaizkigu. Eta, %eman% gisa eginez galdera, aurreko forma guztiez gain, alemaneratu modukoak eskainiko dizkigu, eman forma tartean duten guztiak, alegia.

 

Lemen kasuan, laguntza handia eskaintzen du marka honek, hitz elkartuak, aditz konposatuak eta bestelako hitz anitzeko unitate lexikalak ere lematizaturik baitaude. Erabili ezean, hitzez hitz idatzitakoa besterik ez da agertuko.

_ karakterea ere erabil daiteke edozein karaktereren ordez, baina karaktere bakarra ordezkatzen du. Hau ere edozein lekutan ezar daiteke. Esaterako, at_o idatziz, ateo, atso eta atzo lortuko ditugu. Zalantza dugun kasuetarako lagungarri da hau: ohar_arazi galde dezakegu oharrarazi ala ohartarazi gisa lematizatu den ez badakigu, adibidez. Hori, lemei dagokienez. Baina testuetan zer erabili den ikusi nahi bada edo formarik erabiliena zein den jakin nahi badugu ere balia dezakegu aukera hau, % karakterearekin konbinatuz gainera: o_ar%raz% testu-hitza idatzi eta hau lortuko dugu:

 

1. Kontsulta arrunta

Lemak edo testu-hitzak begira daitezke kontsulta arruntean, % edo/eta _ karaktereak erabiliz hemen ere, hala nahi bada. Baina kontsultan karaktere horiek hitzaren hasieran edo/eta bukaeran bakarrik ezar daitezke, ez hitzaren barruan.

Hauek dira aukerak, lemak ala testu-hitzak nahi ditugun ezkerreko laukian zehaztu ondoren:

  • Hitz bat: forma bakarra idatzi eta Bilatu botoia sakatu.

  • ETA: forma bat baino gehiago galdetu, koma bidez banatuak (zuriunerik ez komaren ondoren), ETA botoia sakatu eta gero Bilatu-ri eman.

  • EDO: idatzitako formetako batek behintzat azaldu behar du bilaketaren emaitzan. Hemen ere koma bidez banatuko ditugu lemak edo testu-hitzak.

  • Tartean: Forma horiek elkarren segidan edo bien artean gehienez hainbat hitz dituztela idatziak egotea eska ditzakegu: ETAren ordez Tarteanaukeratuko dugu eta forma bien tartean egon daitezkeen hitzen kopurua zehaztuko.Elkarren segidan idatziak ikusi nahi baditugu, tartea 0 izango da, hortik gorako tarteak nahi adinakoak izango dira, baina bilaketa paragrafoaren barruan egingo da beti.Gainera, guk idatzitako ordenan idatziak bakarrik azaltzeko eska dezakegu edo edozein ordenatan idatziak. Horretarako, Ordenatua edo Ordenatu gabe aukeratu beharko dugu.

  • Hasieran: idatzi dugun formak (edo lehen formak, bat baino gehiago direnean) paragrafoaren lehen hitza izan behar du

  • Bukaeran: idatzi dugun formak (edo lehen formak, bat baino gehiago direnean) paragrafoaren azken hitza izan behar du.

Iturriak:


Seguir

Get every new post delivered to your Inbox.