TvorenieVysoké školy a univerzity

Čo je Corpus lingvistika?

Len pred niekoľkými desiatkami rokov automatizovať jazykovú výskum, vedci mohli nechať len zdať. Práca bola vykonávaná ručne, priťahuje veľké množstvo študentov, je tu vysoká pravdepodobnosť "nedbalé" chyby, a čo je najdôležitejšie - to všetko trvalo dlho, dlho.

S rozvojom výpočtovej techniky sa stala možné vykonať výskum na rádovo rýchlejší a dnes je jedným z najsľubnejších smerov pri štúdiu jazyka je korpusu lingvistika. Jeho hlavným rysom je použitie veľkého množstva textových informácií, informácie do jednej databázy, zvláštnym spôsobom a zavolal označenú telo.

K dnešnému dňu existuje mnoho budov vytvorené rôzne účely na základe rôznych jazykového materiálu preklenutie miliónov až desiatok miliárd lexikálnych jednotiek. Tento smer je považovaný za sľubný a ukazuje významný pokrok účely aplikácie a výskumu. Odborníci, tak či onak obchodovanie s prirodzeným jazykom, sa odporúča zoznámiť sa s telom textov aspoň na základnej úrovni.

History of corpus lingvistiky

Tvorba tohto trendu je kvôli vytvoreniu Spojených štátov na Brown tela na začiatku 60-tych rokov minulého storočia. Zbierka obsahuje texty všetkých 1 milión slovných tvarov a dnes telo tejto veľkosti by bolo úplne konkurencieschopné. To je do značnej miery kvôli tempu vývoja výpočtovej techniky, rovnako ako rastúci dopyt po nových výskumných zdrojov.

V 90. rokoch sa objavili korpusová lingvistika do plného a samostatný odbor, zbierka textov boli vypracované a označený pre desiatok jazykov. V tomto období bola vytvorená, napríklad, britská národná korpus 100 miliónov žetónov.

S rozvojom tejto oblasti lingvistiky, objemy texte sú stále viac a viac (a dosiahnuť miliardy slovníkových jednotiek), a dispozične je čím ďalej rozmanitejšie. K dnešnému dňu, Internet priestor možno nájsť mŕtvoly písané a hovorené reči, viacjazyčný, a učenie-orientované umeleckej alebo odbornú literatúru, rovnako ako mnoho ďalších druhov.

Aké sú bývanie

Telesá v tele lingvistike môže byť z niekoľkých dôvodov. Intuitívne, je základom pre klasifikáciu môže byť textový jazyk (rusky, nemecky), režim prístupu (open source, uzavretý, komerčné), žáner zdrojového materiálu (hranej, dokumentárnej, akademické, žurnalistiky).

Zaujímavý spôsob generuje materiály hovorenej reči. Vzhľadom k tomu, úmyselné záznam tohto prejavu k vytvoreniu umelého prostredia respondentov a výsledný materiál by nemal byť nazývaný "spontánne", moderné korpusová lingvistika sa vydal inou cestou. Dobrovoľník je vybavený mikrofónom, a počas dňa vyrába záznamy o všetkých rozhovorov, v ktorých sa zúčastňuje. Ľudia v okolí, samozrejme, nemusí vedieť, že v rámci každodennej konverzácie prispieva k rozvoju vedy.

Neskôr dostal záznam uložený do databázy a sú doplnené tlačeného textu typu transkriptov. Tak je umožnené značkovací potreba vytvoriť orálny denné bývanie reči.

prihláška

Všade tam, kde je to možné použitie jazyka, a možno využitie budov textov. Metódy aplikovať trup v lingvistike môže byť:

  • Vytvorenie program, ktorý stanovuje kľúč, je široko používaný v politike a podnikaní sledovať pozitívnych a negatívnych reakcií voličov a zákazníkmi, resp.
  • Spojenie informačný systém pre slovníky a prekladateľmi s cieľom zlepšiť ich výkonnosť.
  • Rad výskumných úloh, ktoré prispievajú k pochopeniu jazykovej jednotky, história jej vývoja a predikciu zmien v blízkej budúcnosti.
  • Vývoj systémov vyhľadávanie informácií na základe morfologických, syntaktických, sémantických a ďalšími funkciami.
  • Optimalizácia rôznych jazykových systémov a ďalších.

využitie budov

Podobný zdroj rozhranie s typickou vyhľadávače, a vyzve užívateľa na zadanie slovo alebo kombinácia slov pre hľadanie informačnej základne. Okrem tvorí presný dotaz možno použiť rozšírenej verzii, ktorá umožňuje nájsť textovú informáciu o prakticky akýchkoľvek jazykových kritérií.

Hľadanie základňa môže byť:

  • príslušnosti k určitej skupine slovných druhov;
  • gramatické javy;
  • sémantika;
  • štylistické a emocionálne sfarbenie.

Môžete tiež kombinovať vyhľadávacie kritériá pre postupnosť slov, napríklad, nájsť všetky výskyty slovesá v prítomnom čase, prvej osobe jednotného čísla, ktorá prichádza po predložke "v" a podstatným menom v akuzatív. Riešením taký jednoduchý úloha sa používateľ niekoľko sekúnd a vyžaduje iba niekoľko kliknutí myšou v určených oblastiach.

proces vytvárania

Pátranie samo o sebe môže byť vykonaná u všetkých subkorpusu a jeden špecificky zvolené v závislosti na potrebách v dosiahnutie určitého cieľa:

  1. Prvým krokom je určiť, ktoré texty tvoria základ pre prípad. Z praktických dôvodov je často používaný žurnalistickej, novinové správy, online komentáre. Výskumný projekt je využitie širokého spektra typov balenia, ale text by mal byť vybraný v súlade s nejakou spoločnú reč.
  2. Výsledná zbierka textov podrobené predčistenia, je oprava chýb, ak existujú, pripravuje bibliografické a extra-lingvistické popisu textu.
  3. Je eliminovaný všetky non-textové informácie: Vymaže grafiky, fotografie, tabuľky.
  4. Je pridelenie tokenov, ktoré sú zvyčajne reč, na ďalšie spracovanie.
  5. Nakoniec sa vykonáva morfologické, syntaktické a ďalšie označenia získané množstvo prvkov.

Výsledkom všetkých uskutočnených transakcií pomocou syntaktické štruktúry s v ňom distribuovaná množina prvkov, z ktorých každý je identifikovaný časť reči, gramatické a, v niektorých prípadoch, sémantickej atribúty.

Ťažkosti pri vytváraní budov

Je dôležité si uvedomiť, že nestačí dať dohromady sadu slov alebo viet pre telo. Na jednej strane, zbierka textov by mala byť vyvážená, to znamená, že predstavujú rôzne typy textov v určitých pomeroch. Na druhej strane - obsah uzavretého priestoru by mali byť rozmiestnené vo zvláštnym spôsobom.

Prvý problém je vyriešený dohodou: napríklad v zbierke patrí 60% literárnych textov, 20% dokumentov, určité percento dostane písomné vyhlásenie hovoreného jazyka, legislatívy, vedeckých prác, atď dnes dokonalý recept je dané telo neexistuje ...

Druhá otázka, ktorá sa týka rozloženia obsahu, riešiť náročné. Existujú špeciálne programy a algoritmy používané pre automatické značenie textov, ale nedávajú perfektný výsledok, môže dôjsť k prerušeniu a vyžadujú manuálnu rekodifikácie. Príležitosti a výzvy na riešenie tohto problému sú podrobne popísané v publikácii V. P. Zaharov korpusové lingvistiky.

značkovacie Text je realizovaný v niekoľkých rovinách, ktoré sme zoznam nižšie.

morfologické značkovanie

Zo školy, sme si uvedomiť, že v ruskom jazyku, tam sú rôzne časti reči, a každý z nich má svoje vlastné charakteristiky. Napríklad, sloveso kategórie sklonu a čas, v ktorom nie je podstatné meno. rodený hovorca bez váhania odmieta podstatné mená a slovesá konjugované, ale označiť telo 100 miliónov. žetónoch manuálnej práce nebude fungovať. Všetky potrebné operácie môže vykonávať počítača, však, pre toho je potrebné naučiť.

Morfologické značkovanie, počítač musí "rozumieť" Každé slovo ako určitú časť reči, ktorá má isté gramatické prvky. Vzhľadom k tomu, ruská (a akýkoľvek iný jazyk) prevádzkuje rad bežných pravidiel, je možné vybudovať automatický postup pre morfologickú analýzu, investovať do auta pre rad algoritmov. Avšak, tam sú výnimky z tohto pravidla, rovnako ako rôzne komplikujúcich faktorov. Výsledkom je, že čistý počítačová analýza je dnes ďaleko od ideálu, a dokonca 4% error dáva hodnotu 4 miliónov. Slová na tele 100 miliónov. Jednotiek, ktoré vyžadujú manuálny rekodifikácie.

Detailný Kniha popisuje problém Zaharov V. P. "korpusové lingvistiky".

syntaktická anotácia

Rozobrať či analýze - procedúru, ktorá určuje vzťah slov vo vete. Pomocou sady algoritmov je možné určiť text podmet, prísudok, dodatkov, viac otáčok reči. Zistiť, ktoré slová sú hlavné postupnosť, a ktorý - závislí, môžeme efektívne získavať informácie z textu a naučiť stroj vydávať v odpoveď na žiadosť o vyhľadávanie len informácie nás zaujímavé.

Mimochodom, moderné vyhľadávače použiť rozdávať konkrétne čísla namiesto dlhých textov v reakcii na príslušné otázky typu "koľko kalórií v jablko" alebo "vzdialenosti od Moskvy do Petrohradu." Aby však bolo možné pochopiť, dokonca aj základy postupu popísanom nutnosťou konzultovať "Úvod do korpusovej lingvistiky" alebo iné základné cvičenia.

sémantickej značkovací

Sémantika slova - je, zjednodušene povedané, na význame. Široko použiteľný prístup k sémantickej analýzy slovo priraďovanie tagov, ktorý odráža jeho príslušnosti k sade sémantických kategórií a podkategórií. Takéto informácie sú dôležité pre optimalizáciu algoritmov analýzy textu tón, automatické sumarizácia a ďalšie úlohy, metódy korpusovej lingvistiky.

Existuje celý rad "root" stromu, predstavujúce abstraktné slovo s veľmi širokým sémantiky. Ako sú tvorené vetva uzlov stromu, ktorý obsahuje viac a viac špecifických lexikálne prvky. Napríklad, slovo "zviera" môže byť spojená s takými pojmami ako "človek" a "zviera". Prvé slovo bude aj naďalej rozdeliť do rôznych profesií, požiadavky príbuznosti, národnosti a druhý - z tried a druhov zvierat.

Použitie systémov vyhľadávanie informácií

Oblasti využitia korpusové lingvistiky pokrývať rôzne oblasti činnosti. Kryty sú určené pre prípravu a korekciu slovníkov, vytvárať automatizované systémy prevodu, anotácií, vyhľadávanie faktov, určujúci tón a ďalšie spracovanie textu.

Navyše, tieto zdroje sú aktívne využívané v štúdiu svetových jazykov a mechanizmov fungovania jazyka vôbec. Prístup do veľkých objemov vopred pripraveného informácií umožňuje rýchlu a komplexnú štúdiu o trendoch vývoja jazykov, a zmena stabilnú formácie neologizmy rýchlosť reči hodnoty lexikálne jednotky a ďalšie.

Vzhľadom k tomu, pracovať s takými veľkými objemami dát vyžaduje automatizáciu, dnes existuje úzka interakcia medzi počítačom a korpusovej lingvistiky.

Ruský národný korpus

Tento prípad (skrátene NKRYA) zahŕňa rad subkorpusu, čo umožňuje použitie prostriedku pre širokú škálu úloh.

Tieto materiály v databáze sú rozdelené NKRYA:

  • publikácií v 90. rokoch a 2000s médií ', a to ako tuzemských i zahraničných;
  • nahrávanie reči;
  • aktsentologicheski označené texty (to znamená, že známky stresu);
  • dialekt reči;
  • poézie;
  • Materiály s syntaktické a iné značenie.

Informačný systém zahŕňa aj subkorpusu s paralelnými preklady diel z ruštiny do angličtiny, nemčiny, francúzštiny a mnoho iných jazykov (a naopak).

Aj v databáze je sekcia historických textov, ktoré predstavujú písomný prejav v ruštine v rôznych obdobiach svojho vývoja. K dispozícii je tiež tréning telo, čo môže byť užitočné pre cudzie občanov zvládnutie ruského jazyka.

Ruský národný korpus obsahuje 400 miliónov lexikálne jednotky, a v mnohých ohľadoch dopredu značnej časti z jazykov európskych inštitúcií.

vyhliadky

Skutočnosť, v prospech uznania tohto trendu je dostupnosť sľubných laboratórnych korpusu lingvistiku v ruských vysokých škôl, rovnako ako cudzie. S využitím a výskumu v rámci týchto informácií a vyhľadávanie zdrojov so sebou nesie rozvoj určitých oblastí v oblasti špičkových technológií, odpovedanie na otázky systémov, ale je to popísané vyššie.

Ďalší rozvoj corpus lingvistiky sa predpokladá na všetkých úrovniach, od technického, tak z hľadiska zavádzania nových algoritmov, ktoré optimalizujú procesy vyhľadávanie a spracovávanie informácií, posilnenie počítačov, viac RAM a spotrebiteľmi, pretože používatelia sú stále viac a viac spôsobov, ako využiť tento typ zdroja v ich každodennej život a dielo.

na záver

V polovici minulého storočia v roku 2017 sa zdalo vzdialenej budúcnosti, kde kozmické cestovať vesmírom a roboti robiť všetku prácu pre ľudí. V skutočnosti, veda je plná "bielych miest" a robiť zúfalé pokusy o zodpovedanie otázok ľudstva po stáročia znepokojujúce. Otázky fungovanie jazyka tu zaujímajú čestné miesto, a skriňa a matematická lingvistika nám môže pomôcť na ne odpovedať.

Spracovanie veľkých dátových súborov môže odhaliť vzory, predtým nedostupné, predpovedať vývoj špecifických jazykových prvkov, sledovať tvorbu slov v takmer reálnom čase.

Z praktického hľadiska, globálne skrine možno vidieť napríklad ako potenciálny nástroj na posúdenie náladu verejnosti - Internet je neustále aktualizovaný denne rôzne texty vytvorené pomocou reálnych užívateľov: tento komentáre a recenzie a články, a mnoho ďalších foriem reči.

Okrem toho spolupracuje s orgánmi prispievajú k rozvoju rovnaký hardvér, ktoré sa podieľajú na získavanie informácií, poznáme so službou "Google" alebo "Yandex", strojového prekladu, elektronických slovníkov.

Môžeme s istotou tvrdiť, že korpus lingvistika je len prvý krok, a v blízkej budúcnosti bude prekvitať.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sk.birmiss.com. Theme powered by WordPress.