Science |
|
Znanost |
How Google converted language translation into a problem of vector space mathematics
|
|
Kako je Google pretvorio prevođenje u matematički problem vektorskog prostora
|
Oldest human footprints outside Africa found
|
|
Pronađeni su najstariji ljudski otisci stopala izvan Afrike
|
Education |
|
Obrazovanje |
"Le Malentendu" translated to Tamil
|
|
"Le Malentendu" preveden na tamilski jezik
|
Technology |
|
Tehnologija |
Drone with legs can land and walk like a bird
|
|
Bespilotna letjelica s nogama može sletjeti i hodati poput ptice
|
Dog translation could soon become a reality
|
|
Prijevod psećeg govora bi mogao uskoro postati stvarnost
|
SpeechTrans partners with Intel to increase access to translation technology
|
|
SpeechTrans se udružuje s Intelom radi povećanja pristupa tehnologiji prevođenja
|
Miscellaneous |
|
Razno |
Traffic sign lost in translation
|
|
Prometni znak izgubljen u prijevodu
|
Cuisine |
|
Kulinarstvo |
Salsa chicken
|
|
Piletina u salsa umaku
|
|
|
|
How Google converted language translation into a problem of vector space mathematics
To translate one language into another, find the linear transformation that maps one to the other.
Simple, say a team of Google engineers.
Computer science is changing the nature of the translation of words and sentences from one language to another.
Anybody who has tried "BabelFish" or "Google Translate" will know that they provide useful translation services but ones that are far from perfect.
The basic idea is to compare a corpus of words in one language with the same corpus of words translated into another.
Words and phrases that share similar statistical properties are considered equivalent.
The problem, of course, is that the initial translations rely on dictionaries that have to be compiled by experts and this takes significant time and effort.
Now Tomas Mikolov and his colleagues at Google have developed a technique that automatically generates dictionaries and phrase tables that convert one language into another.
The new technique does not rely on versions of the same document in different languages.
Instead, it uses data mining techniques to model the structure of a single language and then compares this to the structure of another language.
"This method makes little assumption about the languages, so it can be used to extend dictionaries and translation tables for any language pairs", they say.
The new approach is relatively straightforward...
Search for more...
To translate one language into another, find the linear transformation that maps one to the other.
Simple, say a team of Google engineers.
Computer science is changing the nature of the translation of words and sentences from one language to another.
Anybody who has tried "BabelFish" or "Google Translate" will know that they provide useful translation services but ones that are far from perfect.
The basic idea is to compare a corpus of words in one language with the same corpus of words translated into another.
Words and phrases that share similar statistical properties are considered equivalent.
The problem, of course, is that the initial translations rely on dictionaries that have to be compiled by experts and this takes significant time and effort.
Now Tomas Mikolov and his colleagues at Google have developed a technique that automatically generates dictionaries and phrase tables that convert one language into another.
The new technique does not rely on versions of the same document in different languages.
Instead, it uses data mining techniques to model the structure of a single language and then compares this to the structure of another language.
"This method makes little assumption about the languages, so it can be used to extend dictionaries and translation tables for any language pairs", they say.
The new approach is relatively straightforward.
It relies on the notion that every language must describe a similar set of ideas, so the words that do this must also be similar.
For example, most languages will have words for common animals such as cat, dog, cow and so on.
And these words are probably used in the same way in sentences such as "a cat is an animal that is smaller than a dog".
This is an important clue.
The new trick is to represent an entire language using the relationship between its words.
The set of all the relationships, the so-called "language space", can be thought of as a set of vectors that each point from one word to another.
And in recent years, linguists have discovered that it is possible to handle these vectors mathematically.
For example, the operation 'king' - 'man' + 'woman' results in a vector that is similar to 'queen'.
It turns out that different languages share many similarities in this vector space.
That means the process of converting one language into another is equivalent to finding the transformation that converts one vector space into the other.
This turns the problem of translation from one of linguistics into one of mathematics.
So the problem for the Google team is to find a way of accurately mapping one vector space onto the other.
For this they use a small bilingual dictionary compiled by experts - comparing same corpus of words in two different languages gives them a ready-made linear transformation.
After identifying this mapping, it is then a simple matter to apply it to the bigger language spaces.
Mikolov say it works remarkably well.
"Despite its simplicity, our method is surprisingly effective: we can achieve almost 90 percent precision for translation of words between English and Spanish", he says.
The method can be used to extend and refine existing dictionaries, and even to spot mistakes in them.
Indeed, the Google team did exactly that with an English-Czech dictionary, finding numerous mistakes.
Finally, the team points out that since the technique makes few assumptions about the languages themselves, it can be used on argots that are entirely unrelated.
So while Spanish and English have a common Indo-European history, the new technique also works just as well for pairs of languages that are less closely related, such as English and Vietnamese.
That's a useful step forward for the future of multilingual communication.
But the team says this is just the beginning.
"Clearly, we still have much to explore", they conclude.
» Search for more...
|
|
Kako je Google pretvorio prevođenje u matematički problem vektorskog prostora
Kako biste nešto preveli s jednog jezika na drugi, pronađite linearnu transformaciju koja preslikava jedan jezik u drugi.
Jednostavno, kaže tim Googleovih inženjera.
Informatika mijenja prirodu prevođenja riječi i rečenica iz jednog jezika u drugi.
Svatko tko je isprobao usluge "BabelFish" ili "Google Translate" zna da one pružaju korisne usluge prevođenja, ali da su daleko od savršenstva.
Osnovna ideja je usporediti korpus riječi na jednom jeziku s istim korpusom riječi koje su prevedene na drugi jezik.
Riječi i fraze koje dijele slična statistička svojstva smatraju se ekvivalentnima.
Naravno, problem je činjenica da se početni prijevodi oslanjaju na rječnike koje moraju sastaviti stručnjaci, a za to je potrebno mnogo vremena i truda.
Sada su Tomas Mikolov i njegovi kolege iz tvrtke Google razvili tehniku koja automatski generira rječnike i tablice fraza koje pretvaraju jedan jezik u drugi.
Nova tehnika se ne oslanja na varijante istog dokumenta na različitim jezicima.
Umjesto toga, koristi tehnike ekstrakcije podataka kako bi modelirala strukturu jednog jezika a zatim je uspoređuje sa strukturom drugog jezika.
"Ova metoda ne stvara mnogo pretpostavki o jezicima, pa se može koristiti za proširenje rječnika i prevoditeljskih tablica za bilo koje jezične parove", kažu oni.
Novi pristup je relativno jednostavan...
Potraži više...
Kako biste nešto preveli s jednog jezika na drugi, pronađite linearnu transformaciju koja preslikava jedan jezik u drugi.
Jednostavno, kaže tim Googleovih inženjera.
Informatika mijenja prirodu prevođenja riječi i rečenica iz jednog jezika u drugi.
Svatko tko je isprobao usluge "BabelFish" ili "Google Translate" zna da one pružaju korisne usluge prevođenja, ali da su daleko od savršenstva.
Osnovna ideja je usporediti korpus riječi na jednom jeziku s istim korpusom riječi koje su prevedene na drugi jezik.
Riječi i fraze koje dijele slična statistička svojstva smatraju se ekvivalentnima.
Naravno, problem je činjenica da se početni prijevodi oslanjaju na rječnike koje moraju sastaviti stručnjaci, a za to je potrebno mnogo vremena i truda.
Sada su Tomas Mikolov i njegovi kolege iz tvrtke Google razvili tehniku koja automatski generira rječnike i tablice fraza koje pretvaraju jedan jezik u drugi.
Nova tehnika se ne oslanja na varijante istog dokumenta na različitim jezicima.
Umjesto toga, koristi tehnike ekstrakcije podataka kako bi modelirala strukturu jednog jezika a zatim je uspoređuje sa strukturom drugog jezika.
"Ova metoda ne stvara mnogo pretpostavki o jezicima, pa se može koristiti za proširenje rječnika i prevoditeljskih tablica za bilo koje jezične parove", kažu oni.
Novi pristup je relativno jednostavan.
Oslanja se na ideju da svaki jezik mora opisati sličan skup ideja, pa riječi koje se koriste također moraju biti slične.
Na primjer, većina jezika ima riječi za uobičajene životinje kao što su mačka, pas, krava i tako dalje.
A ove se riječi vjerojatno koriste na isti način u rečenicama poput "mačka je životinja koja je manja od psa".
Ovo je važan trag.
Novi trik se sastoji od opisivanja cijelog jezika korištenjem veza između njegovih riječi.
Skup svih odnosa, takozvani "jezični prostor", možemo zamisliti kao skup vektora od koji svaki upućuje od jedne riječi na drugu.
A lingvisti su u posljednjih nekoliko godina otkrili da je moguće matematički obrađivati te vektore.
Na primjer, operacija 'kralj' - 'muškarac' + 'žena' kao rezultat daje vektor koji je nalik na 'kraljica'.
Ispada da različiti jezici dijele mnoge sličnosti u ovom vektorskom prostoru.
To znači da je postupak pretvaranja jednog jezika u drugi ekvivalentan pronalaženju transformacije koja pretvara jedan vektorski prostor u drugi.
Time se prevođenje iz lingvističkog problema pretvara u matematički problem.
Stoga problem Googleovog tima predstavlja pronalaženje načina za točno preslikavanje jednog vektorskog prostora u drugi.
Oni u tu svrhu koriste mali dvojezični rječnik kojeg su sastavili stručnjaci - uspoređivanje istog korpusa riječi na dva različita jezika daje im gotovu linearnu transformaciju.
Nakon identifikacije ovog preslikavanja, jednostavno je primijeniti ga na veće jezične prostore.
Mikolov kaže da ovo funkcionira iznimno dobro.
"Unatoč jednostavnosti, naša metoda je iznenađujuće učinkovita: možemo postići točnost prevođenja od gotovo 90 posto između engleskog i španjolskog jezika", kaže on.
Metodu je moguće koristiti za proširivanje i poboljšanje postojećih rječnika, pa čak i uočavanje pogrešaka u njima.
Doista, Googleov tim je učinio upravo to s englesko-češkim rječnikom i otkrio brojne pogreške.
Na kraju, tim ističe da je ovu tehniku, budući da ona ne stvara mnogo pretpostavki o samim jezicima, moguće koristiti za žargone koji su posve nepovezani.
Stoga, iako španjolski i engleski jezik imaju zajedničku indoeuropsku povijest, nova tehnika jednako dobro funkcionira i za parove jezika koji su manje srodni, poput engleskog i vijetnamskog jezika.
Ovo je koristan korak za budućnost višejezične komunikacije.
Ali tim kaže da je ovo tek početak.
"Jasno, još uvijek nam ostaje mnogo toga za istražiti", zaključuju oni.
» Potraži više...
|
Oldest human footprints outside Africa found
Footprints left by five prehistoric humans between 850,000 and 950,000 years ago have been discovered on a beach in Norfolk, UK – the oldest such prints found outside Africa.
The footprints came to light on the shoreline at Happisburgh last May after severe erosion wore away cliffs above.
Of 49 footprints visible, 12 were analysed in great detail.
Within two weeks, the prints had been washed away by the sea – but not before a research team carefully recorded them by merging multiple digital photographs of each print to create high-precision 3D images.
These early Britons probably belonged to a species called Homo antecessor.
This European hominin first appeared around 1.2 million years ago...
Search for more...
|
|
Pronađeni su najstariji ljudski otisci stopala izvan Afrike
Otisci stopala petoro prapovijesnih ljudi čija je starost između 850.000 i 950.000 godina otkriveni su na plaži u Norfolku u Ujedinjenom Kraljevstvu – a to su najstariji takvi otisci pronađeni izvan Afrike.
Otisci stopala su otkriveni na obali u Happisburghu prošlog svibnja nakon što je velika erozija istrošila litice iznad njih.
Od 49 vidljivih otisaka stopala, 12 njih je detaljno analizirano.
Unutar dva tjedna, otiske je ispralo more – ali ne prije nego što ih je istraživački tim pažljivo zabilježio spajanjem većeg broja digitalnih fotografija svakog otiska kako bi se dobile vrlo precizne trodimenzionalne slike.
Ovi rani Britanci vjerojatno pripadaju vrsti Homo antecessor.
Ovaj europski hominin se prvi put pojavio prije otprilike 1,2 milijuna godina...
Potraži više...
|
|
|
|
"Le Malentendu" translated to Tamil
The works of the Algerian-French Nobel Prize-winning author Albert Camus are not new to readers of serious literature in Tamil.
Among his translated works are his novels Stranger (Anniyan) and The Plague (Kollai Noi).
In his birth centenary year, 2013, the Association of Indian Teachers of French (AITF) has rendered into Tamil his play "Le Malentendu" (Misunderstanding).
The play, "Yethirparathathu", translated by K.Madanagobalane, former Director, School of English and Foreign Languages of the University of Madras, was released by Governor Rosaiah...
Search for more...
|
|
"Le Malentendu" preveden na tamilski jezik
Radovi alžirsko-francuskog pisca i dobitnika Nobelove nagrade, Alberta Camusa, nisu novi čitateljima ozbiljne literature na tamilskom jeziku.
Među njegovim prevedenim djelima su njegovi romani Stranac (Anniyan) i Kuga (Kollai Noi).
Na stogodišnjicu njegovog rođenja, 2013. godine, Udruga indijskih nastavnika francuskog jezika (AITF - Association of Indian Teachers of French) prevela je na tamilski jezik njegovu dramu" Le Malentendu" (Nesporazum).
Ovu dramu, "Yethirparathathu", koju je preveo K.Madanagobalane, nekadašnji upravitelj Škole engleskog i stranih jezika na Sveučilištu u Madrasu, objavio je guverner Rosaiah...
Potraži više...
|
|
|
|
Drone with legs can land and walk like a bird
Is that a bird or a drone watching you from the telephone wire?
A drone with legs can now land just like a bird - or walk on flat surfaces.
Bhargav Gajjar of Vishwa Robotics in Brighton, Massachusetts, designed the legs as an add-on for small US air force drones.
Small drones generally lack landing gear.
Many rely on a controlled crash-landing, a somewhat crude approach compared with the elegant precision landing of birds.
Gajjar studied many bird species and recorded their landings using a high-speed camera...
Search for more...
|
|
Bespilotna letjelica s nogama može sletjeti i hodati poput ptice
Je li to što vas promatra s telefonske žice ptica ili bespilotna letjelica?
Bespilotna letjelica s nogama sada može sletjeti poput ptice - ili hodati po ravnim površinama.
Bhargav Gajjar iz tvrtke Vishwa Robotics u Brightonu, Massachusetts, projektirao je noge kao dodatak malim bespilotnim letjelicama za američko ratno zrakoplovstvo.
Malim bespilotnim letjelicama općenito nedostaje stajni trap.
Mnogi se oslanjaju na kontrolirano prisilno slijetanje, što je pomalo grub pristup u usporedbi s elegantnim preciznim slijetanjem ptica.
Gajjar je proučavao mnoge vrste ptica i zabilježio njihova slijetanja koristeći brzu kameru...
Potraži više...
|
Dog translation could soon become a reality
No More Woof hopes to deliver the first translation devices in April 2014.
The Nordic Society for Invention and Discovery needed to raise $10,000 using crowdfunding platform Indiegogo, but has raised over $15,000 with 47 days to spare.
There are plans for French, Spanish and Mandarin versions of dog translation software in the future, with the two-way communication between humans and dogs as the ultimate goal.
Patterns discovered so far include "I am tired", "I am excited" and "Who are you"?
But don’t start planning lengthy chats with your canine just yet.
The developers are keen to stress that the product is a "work in progress"...
Search for more...
|
|
Prijevod psećeg govora bi mogao uskoro postati stvarnost
Tvrtka "No More Woof" nada se da će početi s isporukom prvih uređaja za prevođenje u travnju 2014. godine.
Nordijsko društvo za izume i otkrića trebalo je prikupiti 10.000 dolara posredstvom platforme za grupno financiranje Indiegogo, ali je prikupilo više od 15.000 dolara 47 dana ranije od predviđenog roka.
Postoje planovi za izradu softvera za prevođenje psećeg jezika na francuski, španjolski i mandarinski, a dvosmjerna komunikacija između ljudi i pasa je krajnji cilj.
Među dosad otkrivenim uzorcima nalaze se "Umoran sam", "Uzbuđen sam" i "Tko si ti"?
Ali nemojte još početi planirati duge razgovore sa svojim ljubimcem.
Programeri naglašavaju da je proizvod još uvijek "rad u tijeku"...
Potraži više...
|
SpeechTrans partners with Intel to increase access to translation technology
Launched in 2010, SpeechTrans offers accurate multi-lingual translation, speech recognition and dictation software.
SpeechTrans' products can be used as your personal portable interpreters.
SpeechTrans recently announced its collaboration with Intel, allowing the company to optimize its successful "Pro Communicator" app for Intel's latest tablet platforms.
"Pro Communicator" for Android was recently tested and verified to run effectively on mobile devices based on Intel Architecture.
As an Intel software partner, SpeechTrans received the substantial technical and marketing support to help optimize the application for the platform.
The "Pro Communicator" app is designed to help professionals and individuals speak and understand different languages within seconds via voice recognition, photo translation, text to speech and text translation...
Search for more...
|
|
SpeechTrans se udružuje s Intelom radi povećanja pristupa tehnologiji prevođenja
Pokrenuta 2010. godine, tvrtka SpeechTrans nudi softver za točno višejezično prevođenje, prepoznavanje govora i izgovor pisanog teksta.
Proizvode tvrtke SpeechTrans moguće je koristiti kao osobne prijenosne prevoditelje.
Tvrtka SpeechTrans je nedavno najavila svoju suradnju s Intelom, što će ovoj tvrtki omogućiti da optimizira svoju uspješnu aplikaciju "Pro Communicator" za najnovije tablet platforme tvrtke Intel.
Aplikacija "Pro Communicator" za Android je nedavno testirana i provjereno radi učinkovito na mobilnim uređajima koji se baziraju na arhitekturi tvrtke Intel.
Kao Intelov softverski partner, SpeechTrans je dobio znatnu tehničku i marketinšku potporu s ciljem optimiziranja aplikacije za tu platformu.
Aplikacija "Pro Communicator" je dizajnirana za pomoć profesionalcima i pojedincima da pričaju i razumiju različite jezike u roku od nekoliko sekundi posredstvom prepoznavanja glasa, prevođenja fotografije teksta, izgovora teksta i prevođenja teksta...
Potraži više...
|
|
|
|
Traffic sign lost in translation
The citizens of Penarth in Wales have been confused recently after a road sign was found telling them something very counter intuitive.
The sign in question reads: "Tra bydd golau coch sefwch yma".
The English translation underneath, according to the sign, reads: "When red light shows wait here".
However, residents of Penarth have been slightly confused, as "sefwch" does not mean "wait", but "stand".
The sign therefore does not instruct drivers to wait when the red light shows, it tells them to stand up.
When she saw the sign, Penarth resident Eleri Griffiths tweeted: "I wouldn't want to stand in the middle of Windsor Road, thanks!"
This traffic sign provides a bit of humour, however it must be noted that effort should always be made to translate signs properly...
Search for more...
|
|
Prometni znak izgubljen u prijevodu
Stanovnici grada Penartha u Walesu nedavno su postali zbunjeni nakon što je postavljen prometni znak koji im govori nešto protivno intuiciji.
Na spornom znaku piše: "Tra bydd golau coch sefwch yma".
Engleski prijevod ispod tog teksta, kako piše na znaku, glasi: "Kada se upali crveno svjetlo, pričekajte ovdje".
Međutim, stanovnici Penartha su donekle zbunjeni, jer "sefwch" ne znači "čekaj", već "ustani".
Prometni znak stoga ne upućuje vozače da pričekaju dok je upaljeno crveno svjetlo, već im nalaže da ustanu.
Kad je vidjela prometni znak, Eleri Griffiths, stanovnica Penartha, objavila je na Twitteru: "Ne bih željela stajati na sredini ulice Windsor Road, hvala!"
Ovaj prometni znak pruža malu dozu humora, ali je potrebno napomenuti da se uvijek mora uložiti trud u ispravan prijevod znakova...
Potraži više...
|
|
|
|
Salsa chicken
You can use mild, medium or hot salsa depending on your taste.
Best with Spanish rice and Mexican-style canned corn.
Very easy and quick!
Serves four.
Ingredients
4 skinless and boneless chicken breast halves
10 g taco seasoning mix
230 ml salsa
125 g shredded Cheddar cheese
Method
Preheat oven to 190 degrees Celsius.
Place chicken breasts in a lightly greased 22x33 cm baking dish.
Sprinkle taco seasoning on both sides of chicken breasts, and pour salsa over all.
Bake at 190 degrees Celsius for 25 to 35 minutes, or until chicken is tender and juicy and its juices run clear.
Sprinkle chicken evenly with cheese, and continue baking for an additional 3 to 5 minutes, or until cheese is melted and bubbly...
Search for more...
|
|
Piletina u salsa umaku
Možete koristiti blag, srednje ljut ili ljut salsa umak, ovisno o vašem ukusu.
Najbolje poslužiti uz španjolsku rižu i konzervirani kukuruz u meksičkom stilu.
Vrlo jednostavno i brzo!
Za četiri osobe.
Sastojci
4 polovice pilećih prsa bez kostiju i bez kože
10 g mješavine taco začina
230 ml salsa umaka
125 g narezanog sira Cheddar
Način pripreme
Unaprijed zagrijte pećnicu na 190 stupnjeva Celzija.
Stavite pileća prsa u lagano nauljenu posudu za pečenje dimenzija 22x33 cm.
Pospite mješavinu taco začina s obje strane pilećih prsa i sve prelijte salsa umakom.
Pecite na 190 stupnjeva Celzija oko 25 do 35 minuta, ili dok piletina ne postane meka i sočna, a njeni sokovi ne postanu bistri.
Pospite piletinu ravnomjerno sirom i nastavite peći još 3 do 5 minuta, ili dok se sir ne bude rastopljen i pun mjehurića...
Potraži više...
|
|
|