TölvurForritun

Utf-8 - stafakóðun

Unicode styður nánast öll núverandi stafatöflum. Besta mynd af kóðun Unicode stafasett er UTF-8 kóðun. Það styður eindrægni með ASCII, andstöðu við röskun á gögnum, skilvirkni og vellíðan vinnslu. En fyrsta sem fyrst.

erfðaskrá form

Tölvur starfa ekki aðeins sem tölur abstrakt stærðfræði hluti, svo og samsetningar eininga geymslu og meðhöndlun föstum stærð gagna - bæti og 32-bita orð. Kóðun staðall verður að taka mið af þessu þegar ákvarða hvernig á að kynna fjölda stöfum.

Í tölvukerfi, Heiltölurnar geymdar eru í minninu frumum 8 bita (1 bæti), 16eða 32 bita. Hver mynd skilgreinir Unicode kóðun, hvaða röð af frumum minni er heil tala samsvarar tiltekinni tákn. Í staðlinum eru þrjár mismunandi gerðir af forritun Unicode 8, 16 og 32-bita blokkir. Samkvæmt því, þeir eru þekktir sem UTF-8, UTF-16 og UTF-32. Heiti UTF stendur fyrir Unicode Umbreyting Format. Hver af þremur formum sem tákna hætti er jafn framsetning Unicode eðli hefur kosti í ýmsum forritum.

Gögn brengla er hægt að nota til að tákna alla stafi í Unicode staðlinum. Þannig eru þeir fullkomlega samhæft við lausnir af ýmsum ástæðum, að nota mismunandi gerðir af erfðaskrá. Hver erfðaskrá er hægt ótvírætt að breyta í eitthvað af hinum tveimur án þess að missa gögn.

nenalozheniya meginreglu

Hver af því sem steypt Unicode kóðun þróað í ljósi non hluta skarast. Til dæmis, Windows-932 myndar stafina einum eða tveimur bæti af kóða. Röðin lengd veltur á fyrstu bæti, svo leiðandi bæti gildi í röð tveggja bæti og einn bæti disjoint. Hins vegar er gildi af einu bæti á fram- og afturbrún bæti röðin getur saman. Þetta þýðir til dæmis að eðli leit D (númer 44) er að finna það inn fyrir mistök inn í seinni hluta röð tveggja Byte "D" (code 84 44). Til að finna út hvaða röð er rétt, the program ætti að taka tillit til fyrri bæti.

Ástandið er flókið, ef leiðandi og slóð bæti passa. Þetta þýðir að til að fjarlægja tvíræðni verður öfugri uppflettingu áður ná upphaf texta eða einstaka kóða röð. Þetta er ekki aðeins óhagkvæm, en er ekki varið hugsanlegum villum, þar sem aðeins eitt rangt bæti við heildartexta hefur orðið ólæsileg.

Snið ummyndun Unicode forðast þetta vandamál vegna þess að verðmæti leiðandi, slóð, og einn eining af geymslu eru ekki sömu upplýsingar. Þetta tryggir að allar Unicode til að leita og samanburðar aldrei gefa rangar niðurstöður vegna tilviljun á mismunandi stöðum í eðli kóða. Sú staðreynd að þessar tegundir erfðaskrá virða meginregluna nenalozheniya, aðgreinir þá frá öðrum Austur-Asíu multi-bæti encodings.

Annar þáttur nonintersection Unicode encodings er að hver persóna hefur skýrt landamæri. Þetta útrýma the þörf til að skanna óákveðinn fjölda fyrri tákn. Þessi eiginleiki er stundum kölluð sjálfstætt klukka kóðun. Röskun á kóða eininga mun kynna röskun aðeins einn staf, og aðliggjandi stafir eru enn ósnortinn. Í 8-bita snið ummyndun, ef bendillinn bendir á bæti, sem hefst með 10xxxxxx (í tvíundarkóða) til að finna upphaf táknsins er krafist í eitt til þrjú andstæða umbreytingum.

samkvæmni

Unicode Consortium styður að fullu alla 3 gerðir af encodings. Það er mikilvægt að standa gegn UTF-8 og Unicode, eins og allir umbreytingu snið - jafngild form útfærslu Unicode eðli-kóðun staðall.

Byte-stefnumörkun

Til að tákna UTF-32 stafir þarft 32-bita kóða eining, sem fellur með Unicode kóða. UTF-16 - eitt til tvö 16-bita einingum. A UTF-8 notar allt að 4 bæti.

UTF-8 kóðun er hannað til að vera í samræmi við bæti-stilla ASCII-undirstaða kerfi. Flest af núverandi hugbúnaður og framkvæmd upplýsingatækni í langan tíma reitt sig á framsetningu á stöfum í röð bæti. Margar samskiptareglur veltur á stöðugir í ASCII kóðun og notar ýmist forðast sértákn stjórna. Einföld leið til að laga sig að aðstæðum Unicode getur, með 8-bita kóðun fyrir hönd Unicode, allir samsvarandi ASCII staf eða stjórna staf. Í þessu skyni og það er UTF-8 kóðun.

breyta lengd

Utf-8 - kóðun er af breytilegri lengd, sem samanstendur af 8-bita geymslueiningar, efri bitar, sem gefa til kynna að hver hluti af the röð og útliti hvers bæti tilheyrir. Einn bil úthlutað til fyrstu þáttur kóða röð, annar - fyrir næsta. Þetta veitir disjointness kóðun.

ASCII

UTF-8 kóðun er að fullu stutt ASCII númerin (0x00-0x7F). Þetta þýðir að Unicode stafir U + 0000-U + 007F eru umreiknaðar í einn bæti 0x00-0x7F UTF-8 og þannig verða óaðgreinanlegur frá ASCII. Þar að auki, til að koma í veg fyrir misskilning, gildi 0x00-0x7F ekki notað lengur í einu bæti framsetning Unicode. Til að umrita tákn neideograficheskih önnur en ASCII, með því að nota röð af tveimur bæti. Tákn svið U + 0800-U + FFFF eru táknuð með þremur bæti, og fleiri kóðar með fleiri en U + FFFF þurfa fjögur bæti.

Gildissvið

UTF-8 kóðun venjulega er gefið val í HTML siðareglur, og þess háttar.

XML hefur orðið fyrsta staðall með fullum stuðningi UTF-8 kóðun. Staðla stofnanir mælum einnig með henni. Stuðningur vandamál í veffangi sem er frábrugðið ASCII-stafi, var leyst þegar samtökin W3C og IETF verkfræði hópur kom að samkomulagi um kóðun allra vefföng eingöngu UTF-8.

Samhæfni við ASCII auðveldar umskipti yfir í nýja hugbúnaði. Með UTF-8 sem virkar texta ritstjórar, þar á meðal JEdit, EmacsName, BBEdit, Eclipse, og "Notepad" Windows stýrikerfi. Engin önnur form kóðun Unicode getur ekki hrósa slíkri stuðnings tól.

erfðaskrá kostur er að það samanstendur af röð bæti. Með UTF-8 streng er auðvelt að vinna í C og önnur forritunarmál. Þetta er eina mynd af kóðun, röð þarf ekki merki bæti BOM eða kóðun yfirlýsingu í XML.

sjálf-samstillingu

Í umhverfi sem notar 8-bita tákn um vinnslu í samanburði við önnur setur multi-Byte, UTF-8 hefur eftirfarandi kosti:

  • Fyrsti bæti númer runa inniheldur upplýsingar um lengd þess. Þetta eykur skilvirkni í beinni leit.
  • Einfaldað finna upphaf tákn sem upphafið bæti takmarkast við fasta svið gilda.
  • Engar gatnamótum bæti gildi.

Bera saman kosti

UTF-8 kóðun er samningur. En þegar það er notað fyrir kóðun Asíu stafi (kínverska, japanska, kóreska, kínverska skrifa með merki) er notað 3-bæti röð. Einnig er UTF-8 kóðun óæðri öðrum formum af erfðaskrá vinnsluhraða. A tvöfaldur flokkun línur framleiðir sömu niðurstöðu og the tvöfaldur flokkun Unicode.

The eðli kóðun fyrirætlun

The eðli kóðun fyrirætlun felur í sér kóðun táknum form og aðferð til að eitt bæti Staðsetningarkóði einingar. Til að ákvarða kóðun fyrirætlun Unicode staðall í té notkun á upphaflegan bæti röð markinu (BOM, Byte röð mark).

Þegar BOM í UTF-8 lögun tag er takmarkað með vísan til notkunar form erfðaskrá. Vandamál í ákvarða Endian UTF-8 hafa, eins og kóðun eining stærð þess er eitt bæti. Notkun BOM fyrir þessa mynd af erfðaskrá er hvorki nauðsynleg né mælt. BOM getur átt sér stað í textanum sem á að umreikna frá öðrum codings með því að nota bæti röð merkja eða undirskrift fyrir UTF-8 kóðuð. Er runa af 3 bæti EF BB 16 16 BF 16.

Hvernig á að stilla UTF-8 kóðun

The HTML kóðun UTF-8 er sett upp með eftirfarandi kóða:

HEAD

META HTTP-equiv = "Content-Type" content = "text / HTML, charset = utf-8" ˃

Í PHP UTF-8 kóðun er sett með haus () virka í upphafi skrárinnar eftir að setja framleiðsla stigi gildi villa:

˂? Php

error_reporting (-1);

haus ( "Content-Type: text / html; charset = utf-8 ');

Til að tengjast MySQL gagnagrunni UTF-8 kóðun er sett:

˂? Php

mysql_set_charset ( 'utf8');

The CSS-skrá kóðun er UTF-8 stafir greinist þannig:

@charset "utf-8";

Þegar þú vistar skrár af öllum gerðum velja UTF-8 kóðun án BOM, annars er þessi síða mun ekki virka. Til að gera þetta í DreamWeave þarf að velja valmyndaratriði "Breytingar - Page Properties - Title / Encoding" til að breyta kóðun til UTF-8. Eftir að endurhlaða síðuna, fjarlægja merkið úr "Connect Unicode undirskrift (BOM)» og beita breytingar. Ef einhver texti á síðunni eða í gagnagrunni var kynnt aðra mynd af erfðaskrá, það er nauðsynlegt að koma aftur inn eða með tilvísun til-umrita. Þegar þú vinnur með reglulegum segðum, vera viss um að nota breytilyklinum u.

Þú getur líka vistað skrána í UTF-8 kóðun í "Notepad" í Windows. Eftir að velja matseðill atriði "File - Save As ..." til að setja nauðsynlegar formi kóðun og vista skrána í UTF-8.

Í textaritli Notepad ++ ef sett annað en UTF-8, í gegnum valmyndinni "umbreyta til UTF-8 án BOM» breyta eðli og vista í UTF-8.

það er ekkert val

Í samhengi við hnattvæðingu, þar sem pólitískir og tungumála mörk er eytt, en stafatöflum sem hafa staðbundna eiginleika, eru til lítils gagns. Unicode er einn stafasett sem styður alla Staðfærslur. A UTF-8 - dæmi um að annast framkvæmd Unicode ef það er:

  • Það styðja a breiður svið af tækjum, þ.mt eindrægni með ASCII kóðun;
  • Það er ónæmur fyrir röskun gagna;
  • einfalt og áhrifaríkt við meðhöndlu;
  • er óháð.

Með tilkomu UTF-8 umræðu um hvaða form kóðun eða stafasett er betra, það verður tilgangslaust.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 is.birmiss.com. Theme powered by WordPress.