MyndunFramhaldsskólar og háskólar

Hvað er Corpus Málvísindi?

Bara fyrir nokkrum áratugum til að gera sjálfvirkan tungumála rannsóknir, vísindamenn gæti aðeins dreymir um. Verkið var gert með handafli, það dregur fjölda nemenda, það er verulegar líkur "kærulaus" mistök, og síðast en ekki síst - allt þetta tók langan, langan tíma.

Með þróun á tækni tölva hefur orðið mögulegt að stunda rannsóknir á stærðargráðu hraðari og dag einn af the efnilegur áttir í rannsóknir á tungumáli er Corpus málvísindi. Helstu eiginleika hennar er að nota mikið magn af texta upplýsingar, upplýsingar í einn gagnagrunn, á sérstakan hátt og kallaði merkt líkamann.

Hingað til, það eru margar byggingar búnar með mismunandi tilgangi á grundvelli ýmissa tungumála efni sem spannar frá milljón tugum milljarða lexical einingar. Þessi átt er viðurkennt sem efnilegur og sýnir verulegar framfarir í átt umsókn og rannsóknir tilgangi. Sérfræðingar, einn eða annan hátt fást við náttúrulegu tungumáli, það er mælt með að kynnast líkama texta minnsta kosti á undirstöðu stigi.

Saga af corpus linguistics

Myndun af þessari þróun er vegna þess að sköpun Bandaríkjanna við Brown líkamanum snemma 60-unar á síðustu öld. Safnið inniheldur texta allra 1 milljón á orði form, og í dag líkama þessari stærð væri algerlega dýru. Þetta er að miklu leyti vegna þess að hraða þróun á tækni tölva, auk vaxandi kröfur fyrir ný úrræði rannsóknir.

Í 90s Corpus málvísindi komið í fulla og sjálfstæða aga, safn af texta hafa verið gerðar upp og merkt fyrir tugum tungumála. Á þessu tímabili og það var búið, til dæmis, British National Corpus 100 milljónir tákn.

Með þróun á þessu sviði málvísinda, eru texti bindi verða fleiri og fleiri (og ná milljarða orðabók einingar), og skipulag er að verða fjölbreyttari. Hingað Netið pláss er hægt að finna hræ skrifað og talað tungumál talar mörg og læra-stilla listrænt eða fræðileg rit, auk margar aðrar tegundir.

Hvað eru húsnæði

Body gerðir í líkamanum málvísindum kunna að vera af ýmsum ástæðum. Innsæi, grundvöllur fyrir flokkun getur verið nýtt tungumál (rússneska, þýska), aðgangur ham (opinn uppspretta, lokað, auglýsing), the tegund af grunnefninu (skáldskapur, heimildarmynd, fræðilegum, blaðamennsku).

Áhugaverð leið býr efni af talmáli. Þar sem vísvitandi upptöku slíks ræðu að búa til gervi umhverfi fyrir svarenda, og efnið var ekki hægt að kalla "sjálfkrafa", nútíma Corpus málvísindi hefur farið í hina áttina. A sjálfboðaliði er búin með hljóðnema, og á daginn framleitt skrá yfir öll samtöl, þar sem það tekur þátt. Fólk í kring, auðvitað, má ekki vita að í tengslum við daglegu samtali stuðlar að þróun vísinda.

Seinna fékk met geymdar í gagnagrunni og fylgir prentuðu texta afrit tegund. Þannig verður hægt Markup þarf til að búa til inntöku daglega tal húsnæði.

umsókn

Þar sem hægt er að nota tungumál, og ef til vill að nota byggingar texta. Aðferðir til að beita bol í málvísindum geta verið:

  • Að búa til forrit afgerandi lykilinn, er víða notað í stjórnmálum og viðskiptum til að halda utan um jákvæð og neikvæð viðbrögð kjósenda og viðskiptavina hins vegar.
  • Tenging upplýsingar kerfi til orðabóka og þýðendur til að bæta árangur þeirra.
  • A fjölbreytni af verkefnum rannsókna sem stuðla að skilningi á tungumáli einingarinnar, sögu þróun hennar og spá um breytingar í náinni framtíð.
  • Þróun upplýsingar sókn kerfi sem byggist á útlitslegum, nokkur dæmi um setningarleg, merkingartækni og öðrum aðgerðum.
  • Hagræðingu af mismunandi tungumálakunnáttu kerfi og aðra.

Notkun bygginga

Svipað úrræði tengi með dæmigerðum leitarvél og hvetja notandann til að slá inn orð eða samsetningu af orðum til að leita að upplýsingum stöð. Fyrir utan að mynda nákvæm fyrirspurn er hægt að nota endurbætt útgáfa, sem gerir að finna texta upplýsingar á nánast hvaða tungumála forsendum.

leita stöð getur verið:

  • aðildar í sérstökum hópi hluta ræðu;
  • málfræði lögun;
  • merkingarfræði;
  • stylistic og tilfinningalega litarefni.

Þú getur einnig sameinað leitarskilyrði um röð orða, til dæmis, til að finna öll tilfelli af sögninni í nútíð, fyrstu persónu eintölu, sem kemur á eftir forsetningu "í" og nafnorðinu í þolfalli ræða. Lausnin við svo einfalt verkefni tekur notandi nokkrar sekúndur og þarf aðeins nokkra smelli mús í tilgreinda sviðum.

Ferlið að skapa

Leitin sjálft er að fara fram á öllum subcorpus og einn sérstaklega valin, allt eftir þörfum í að ná ákveðnu markmiði:

  1. Fyrsta skrefið er að skilgreina sem textarnir mynda grundvöll fyrir málinu. Af praktískum ástæðum, það er oft notað fréttamyndir, fréttir, á netinu athugasemdir. Rannsóknarverkefnið er að nota a breiður fjölbreytni af pakka gerðum, en textinn ætti að vera valin í samræmi við einhverju sameiginlegum vettvangi.
  2. Sú söfnun texta sæta formeðferð, það er leiðrétting á villum, ef einhverjar eru, unnin af bókfræðilegar og auka-tungumála lýsingu á texta.
  3. Skilst allt sem ekki texta upplýsingar: Hreinsar grafík, myndir, töflur.
  4. Er úthlutun tákn, sem eru yfirleitt tal, til frekari vinnslu.
  5. Að lokum, bar það formfræðilegu, syntactical og aðrar merkingar fengið fjölda hluta.

Niðurstaðan af öllum viðskiptum sem gerðar eru af setningafræðilegar uppbyggingu með dreift þar sem fjölmörg atriði, sem hver um sig er bent hluta ræðu, málfræði og í sumum tilvikum, merkingartækni eiginleika.

Erfiðleikar í að búa til byggingar

Það er mikilvægt að skilja að er ekki nóg að setja saman hóp af orðum eða setningar fyrir líkamann. Annars vegar safn af texta ætti að vera í jafnvægi, það er, tákna mismunandi tegundir af texta í ákveðnum hlutföllum. Á hinn - innihald girðing ætti að vera dreift á sérstakan hátt.

Fyrsta vandamálið er leyst með samkomulagi, td í safni nær 60% af bókmenntalega texta, 20% af heimildamyndum, tiltekið hlutfall er gefið skriflega framsetning á talmáli, löggjöf, vísindaritum osfrv fullkomin uppskrift jafnvægi líkama í dag er ekki til ...

Seinni spurningin, um innihald skipulag, leysa krefjandi. Það eru sérstakar áætlanir og reiknirit sem notuð eru til sjálfvirka merkingu texta, en þeir gefa ekki fullkomna niðurstöðu, getur valdið truflunum og þurfa handbók rework. Tækifæri og áskoranir í að takast á við þetta vandamál er lýst í smáatriðum í grein V. P. Zaharova Corpus málvísindum.

Texti Markup er framkvæmd á nokkrum stigum, sem við lista hér að neðan.

útlitseinkenni merking

Úr skóla, minnumst við þess að í rússneska tungumál, það eru mismunandi hlutar ræðu, og hver þeirra hefur sín sérkenni. Til dæmis, sögnin er flokka halla og tímann sem enginn nafnorð. að móðurmáli hiklaust hafnar nafnorðum og samtengt sagnir, en til að merkja líkama 100 milljónir króna. tákn handbók vinnuafl mun ekki virka. Allar nauðsynlegar aðgerðir geta keyrt tölvuna, þó að það þarf að vera kennt.

Útlitseinkenni tagging, tölvan verður "skilja" hvert orð sem ákveðinn hluta af ræðu sem hefur ákveðnar Bæta lögun. Þar sem rússneska (og önnur tungumál) rekur fjölda reglulegra reglum, það er hægt að byggja upp sjálfvirka aðferð til útlitseinkenni greiningu fjárfesta í bíl fyrir fjölda reiknirit. Hins vegar eru undantekningar frá þeirri reglu, sem og ýmsum flækja þáttum. Þess vegna, hrein tölva greiningu á dag er langt frá hugsjón, og jafnvel 4% villa gefur gildið 4 milljónir evra. Orð á líkama 100 milljónir. Einingar, sem þurfa handbók rework.

Ítarlegar bók lýsir vandamálið Zaharova V. P. "Corpus málvísindum".

nokkur dæmi um setningarleg umsögnina

Þáttun eða þáttun - aðferð sem ákvarðar tengsl orða í setningu. Using a setja af reiknirit er hægt að ákvarða texta efni, umsögnina, viðbætur, margar beygjur ræðu. Finndu út hvaða orð eru helstu röð, og sem - háð, getum við í raun þykkni upplýsingar úr texta og kenna vél til að gefa út til að bregðast við leit beiðni einungis þær upplýsingar Áhugavert okkur.

Við the vegur, nútíma leitarvélar nota þetta til að gefa út ákveðin númer í stað langar texta til að bregðast við viðeigandi fyrirspurnir eins og "hversu margar hitaeiningar í epli" eða "fjarlægð frá Moskvu til Pétursborgar." Hins vegar, til að skilja jafnvel grunnatriði ferlinu lýst með því að þurfa að hafa samráð við "Kynning á Corpus málvísinda" eða öðrum grunn leiðbeiningar.

merkingartækni Markup

Merkingarfræði þess orðs - er á einfaldan hátt, merkingu. Víða við nálgun við merkingartækni greiningu á orði tilvísunarkröfunum tags, endurspeglar tilheyra hans til að setja af merkingartækni flokka og undirflokka. Slíkar upplýsingar er dýrmætur fyrir hagræðingu reiknirit greina texta tón, sjálfvirkur summarization og önnur verkefni aðferðir Corpus málvísindum.

There ert a tala af "rót" af trénu, fulltrúi ágrip orð með mjög breitt merkingarfræði. Sem útibú tré tengipunkta myndast, sem innihalda meira og sértækari lexical atriði. Til dæmis er orðið "skepna" getur tengst slíkum hugtökum eins og "mönnum" og "dýr". Fyrsta orðið mun halda áfram að útibú út í mismunandi starfsgreinum, frændsemi skilmálum, þjóðernis, og annað - á flokka og tegundir dýra.

Notkun upplýsinga sókn kerfi

Svæði notkun Corpus málvísindum ná fjölbreyttum sviðum starfsemi. Hylkjum eru notuð til framleiðslu og leiðréttingar á orðabókum, búa sjálfvirkar þýðingar kerfi, annotating, heimta staðreyndir, ákvarða tóninn og annar texti vinnslu.

Að auki eru slík úrræði virkur notað í rannsókninni tungumálum heimsins og leiðir af starfsemi tungumálsins almennt. Aðgangur að mikið magn af fyrirfram undirbúin upplýsingum auðveldar hröð og alhliða rannsókn á þróun þróun tungumála og stöðugt myndun nýyrði tal hraði breyting gildi lexical einingar og aðrir.

Þar sem vinna með svo miklu magni af gögnum þarf sjálfvirkni, í dag er nærri samskipti milli tölva og corpus málvísindum.

Russian National Corpus

Þetta mál (skammstafað NKRYA) felur í sér fjölda subcorpus, leyfa notkun á auðlind fyrir a breiður fjölbreytni af verkefnum.

Efnin í gagnagrunninum skiptist NKRYA:

  • að rit í 90s fjölmiðlum 'og 2000, bæði innlendum og erlendum,
  • upptöku ræðu;
  • aktsentologicheski merkt texta (þ.e.a.s., auðkenna streitu);
  • mállýskum ræðu;
  • ljóð;
  • Efni með nokkur dæmi um setningarleg og öðrum merkingum.

Upplýsingakerfi einnig Subcorpus við þýðingar samsíða af verkum rússnesku á ensku, þýsku, frönsku og mörgum öðrum tungumálum (og öfugt).

Einnig í dag er hluti af sögulegum texta, fulltrúi skrifað ræðu á rússnesku á mismunandi tímabilum þróun hennar. Það er einnig þjálfun líkama, sem getur verið gagnlegt fyrir erlenda ríkisborgara í húsbóndi rússneska tungumál.

Russian National Corpus samanstendur 400 milljón lexical einingar, og á margan hátt á undan verulegum hluta af tungumálum Evrópu stofnana.

horfur

Staðreynd í hag viðurkenningu þessa þróun er framboð efnilegur rannsóknarstofu Corpus málvísindi í rússnesku háskóla, auk erlendum. Með notkun og rannsóknum innan ramma þessara upplýsinga og leita úrræði felur í sér þróun á tilteknum svæðum á sviði hár tækni, spurning-svara-kerfi, en það er fjallað hér að framan.

Spáð er frekari þróun corpus linguistics á öllum stigum, allt frá tæknilegum og hvað varðar innleiðingu nýrra reiknirita sem hámarka ferli að leita og vinna úr upplýsingum, uppbyggjandi tölvur, meira vinnsluminni, og til neytenda, vegna þess að notendur eru fleiri og fleiri leiðir til að nota þessa tegund af auðlind í daglega þeirra líf og starf.

í niðurstöðu

Í miðri síðustu öld í 2017 virtist fjarlæg framtíð, þar spaceships ferðast í gegnum alheiminn og vélmenni vinna allt fyrir fólk. Í raun, vísindi er full "hvítum blettum" og gera örvæntingarfullur tilraunir til að svara spurningum mannkyns um aldir trufla. Spurningar starfsemi tungumáli hér hernema stað í heiðri, og skáp og tölvumálvísindum geta hjálpað okkur að svara þeim.

Vinnsla stórum gagnagrunnum geta uppgötva mynstur, áður óaðgengilegar, spá fyrir um þróun sérstakar aðgerðir tungumáli til að fylgjast með myndun orða í næstum rauntíma.

Á hagnýtum vettvangi, alþjóðlegt girðing má til dæmis sem hugsanlega tæki til að meta opinbera skapi - Netið er stöðugt uppfærð daglega ýmsar texta stofnaðar af raunverulegum notendur: Þessi ummæli og gagnrýni, og greinar, og margar aðrar gerðir af ræðu.

Auk þess að vinna með líkama stuðlar að þróun á sama vélbúnað, sem taka þátt í sókn upplýsingar, við erum kunnugir þjónustu "Google" eða "Yandex", þýðingar vél, rafrænum orðabókum.

Við getum öryggi fullyrða að corpus málvísindi gerir aðeins fyrstu skrefin, og í náinni framtíð mun blómstra.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 is.birmiss.com. Theme powered by WordPress.