
Kysymys 1
1.1 ei-kompositionaalinen yhdyssana
1.2 vapaat morfeemit
1.3 affiksi
1.4 polysemia
1.5 kollokaatio
Kysymys 2 (vastaa molempiin kohtiin)
2.1 Sanakirjaperustaiseen kyselynkääntämiseen perustuvan kieltenvälisen tiedonhaun (esimerkiksi suomi-englanti, perustuen esim. kurssilla käsiteltyyn UTACLIR-systeemiin) vaiheet. Selitä vaiheet lyhyesti, mainitse myös ongelmista, joita sanakirjapohjaiseen CLIRiin liittyy.
2.2 Kerro lyhyesti, mitä on n-gram-täsmäytys ja mihin sitä voi käyttää. Laske samanlaisuusaste sanaparille Moskova-Moscow alla olevaa SIM-kaavaa käyttäen, kun sanoista muodostetaan diagrammit vierekkäisistä kirjaimista (tulos murtolukuna).
SIM(N1,N2) = |N1 AND N2| / |N1 OR N2|
Kysymys 3 (valitse jompikumpi alakohta)
3.1 Kerro lyhyesti mitä ovat anaforat ja ellipsit. Miten ne liittyvät tiedonhakuun, millaisia ongelmia niiden kanssa syntyy?
3.2 Tiedonhaussa voidaan käyttää sanojen morfologisen variaation käsittelyyn erilaisia menetelmiä. Selitä menetelmistä lemmaus (perusmuotoistaminen) ja kasinta (stemmaus) ja kuvaa niiden eroja, mahdollisia ongelmia ja soveltuvuutta eri kieliin, Kerro myös kummankin menetelmän suhteesta tekstitietokannan indeksityyppiin.
1) Määrittele
2.1) Homonymia ja polysemia, miten liittyvät tiedonhakuun ja mitä ongelmia aiheuttavat?
2.2) ?
3.1) Essee: Kyselynlaajennus, sen menetelmät, ja mihin niitä käytetään tiedonhaussa?
TAI
3.2) Essee: Sanojen morfologisen variaation käsittelyn menetelmät (kuvaa kolme), niiden erot, soveltuvuudet ja haitat tiedonhaussa.
Kysymys 1
Määrittele lyhyesti seuraavat termit. Voit selittää asian omin sanoin. Esimerkit edellytetään kohtiin 1.1, 1.3, 1.4. Muissakin kohdissa niitä saa antaa.
1.1 ei-kompositionaalinen yhdyssana
1.2 vapaat morfeemit
1.3 affiksi
1.4 hymonymia
1.5 kollokaatio
Kysymys 2 (vastaa molempiin kohtiin)
2.1 Sanakirjaperustaiseen kyselynlaajentamiseen perustuvan kieltenvälisen tiedonhaun (esimerkiksi suomi-englanti) vaiheet. Selitä vaiheet lyhyesti, mainitse myös ongelmista, joita sanakirjapohjaiseen CLIRiin liittyy.
2.2. Kerro lyhyesti, mitä on n-gram-täsmäytys ja mihin sitä voi käyttää. Laske samanlaisuusaste sanaparille tuscany - toscana alla olevaa SIM-kaavaa käyttäen, kun sanosita muodostetaan digrammit vierekkäisistä kirjaimista (tulos murtolukuna).
SIM(N1,N2) = |N1 leikkaus N2| / |N1 yhdiste N2|
Kysymys 3 (valitse jompikumpi alakohta)
3.1. Kerro lyhyesti mitä ovat anaforat ja ellipsit. Miten ne liittyvät tiedonhakuun, millaisia ongelmia niiden kanssa syntyy?
3.2. Tiedonhaussa voidaan käyttää sanojen morfologisen variaation käsittelyyn erilaisia menetelmiä. Selitä menetelmistä lemmausta (perusmuotoistaminen) ja karsinta (stemmaus) ja kuvaa niiden eroja, mahdollisia ongelmia ja soveltuvuutta eri kieliin. Kerro myös kummankin menetelmän suhteesta tekstitietokannan indeksityyppiin.