About: UTF-8

Property	Value
dbo:abstract	Az UTF-8 (8-bit Unicode Transformation Format, 8 bites Unicode átalakítási formátum) változó hosszúságú Unicode karakterkódolási eljárás, melyet Rob Pike és Ken Thompson alkotott meg. Bármilyen Unicode karaktert képes reprezentálni, ugyanakkor visszafelé kompatibilis a 7 bites ASCII szabvánnyal. Emiatt egyre inkább az internetes karakterkódolás standardjává válik. Az angolszász, majd az európai országokból kiindulva az ASCII után először az úgynevezett Latin-1 kódolás terjedt el, ami tartalmazza az összes angol nyelvhez szükséges betűt, illetve számos európai nyelv betűit, de például a magyar „ő” és „ű” betűket nem (ezek helyett – helytelenül – gyakran használják a hullámos illetve a kalapos betűket: û ô vagy õ). Magyarhoz lehet azonban a Latin-2 (közép-európai) kódolást is használni, ami ismeri az ő és ű betűinket, de nem ismer más fontos betűket, például a cirill, görög, vagy például az örmény, indiai, arab és héber betűket, a kínai írásjegyeket és a japán kanákat. A Unicode és az UTF-8 kódolás egyszerre támogatja mindezen karakterek megjelenítését, és így minden nyelv egységes kódolást tud használni, megelőzve a betűk nem tervezett „átalakulását”. Az UTF-8-kódolás lényege, hogy a 7 bites ASCII kódtábla karaktereit (angol kis- és nagybetűk, számok és gyakoribb írásjelek) az ASCII-kódjukkal jelöli, az egyéb karakterek kódját pedig „feldarabolja”, és a darabokat egy vezérlőjelet követő több, egymás utáni bájtban helyezi el úgy, hogy a bájtok mindegyike 127 felett van (azaz így nem téveszthető össze a 7 bites ASCII-kódok egyikével sem). Ennek számos előnye van: a 7 bites ASCII-szöveg UTF-8-kódja saját maga, illetve az UTF-8 szöveget tévesen valamilyen más elterjedt kódolásnak (például ISO-8859-1-nek) értelmezve általában nem kapunk nagyon rossz eredményt (magyar szöveg esetén csak az ékezetes karakterek és a gondolatjel és egyéb speciális tipográfiai jelek helyén lesz két-két értelmetlen karakter), a félbeszakadt UTF-8 karakterről egyértelműen felismerhető, hogy hibás, és a nagyrészt ASCII-szöveg kódolása nem igényel sok extra bájtot. (hu) Az UTF-8 (8-bit Unicode Transformation Format, 8 bites Unicode átalakítási formátum) változó hosszúságú Unicode karakterkódolási eljárás, melyet Rob Pike és Ken Thompson alkotott meg. Bármilyen Unicode karaktert képes reprezentálni, ugyanakkor visszafelé kompatibilis a 7 bites ASCII szabvánnyal. Emiatt egyre inkább az internetes karakterkódolás standardjává válik. Az angolszász, majd az európai országokból kiindulva az ASCII után először az úgynevezett Latin-1 kódolás terjedt el, ami tartalmazza az összes angol nyelvhez szükséges betűt, illetve számos európai nyelv betűit, de például a magyar „ő” és „ű” betűket nem (ezek helyett – helytelenül – gyakran használják a hullámos illetve a kalapos betűket: û ô vagy õ). Magyarhoz lehet azonban a Latin-2 (közép-európai) kódolást is használni, ami ismeri az ő és ű betűinket, de nem ismer más fontos betűket, például a cirill, görög, vagy például az örmény, indiai, arab és héber betűket, a kínai írásjegyeket és a japán kanákat. A Unicode és az UTF-8 kódolás egyszerre támogatja mindezen karakterek megjelenítését, és így minden nyelv egységes kódolást tud használni, megelőzve a betűk nem tervezett „átalakulását”. Az UTF-8-kódolás lényege, hogy a 7 bites ASCII kódtábla karaktereit (angol kis- és nagybetűk, számok és gyakoribb írásjelek) az ASCII-kódjukkal jelöli, az egyéb karakterek kódját pedig „feldarabolja”, és a darabokat egy vezérlőjelet követő több, egymás utáni bájtban helyezi el úgy, hogy a bájtok mindegyike 127 felett van (azaz így nem téveszthető össze a 7 bites ASCII-kódok egyikével sem). Ennek számos előnye van: a 7 bites ASCII-szöveg UTF-8-kódja saját maga, illetve az UTF-8 szöveget tévesen valamilyen más elterjedt kódolásnak (például ISO-8859-1-nek) értelmezve általában nem kapunk nagyon rossz eredményt (magyar szöveg esetén csak az ékezetes karakterek és a gondolatjel és egyéb speciális tipográfiai jelek helyén lesz két-két értelmetlen karakter), a félbeszakadt UTF-8 karakterről egyértelműen felismerhető, hogy hibás, és a nagyrészt ASCII-szöveg kódolása nem igényel sok extra bájtot. (hu)
dbo:wikiPageExternalLink	http://www.unicode.org/versions/Unicode13.0.0/ch03.pdf%23page=55 http://www.unicode.org/versions/Unicode5.2.0/ch03.pdf%23page=40 http://www.math.bme.hu/~egmont/utf8/
dbo:wikiPageID	2771 (xsd:integer)
dbo:wikiPageInterLanguageLink	dbpedia-fi:Unicode
dbo:wikiPageLength	6248 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	22764834 (xsd:integer)
prop-hu:date	2020 (xsd:integer)
prop-hu:url	http://www.math.bme.hu/~egmont/utf8/
prop-hu:wikiPageUsesTemplate	dbpedia-hu:Sablon:Halott_link dbpedia-hu:Sablon:Jegyzetek dbpedia-hu:Sablon:Megjegyzések dbpedia-hu:Sablon:Portál dbpedia-hu:Sablon:Szám dbpedia-hu:Sablon:Unicode_table
dct:subject	dbpedia-hu:Kategória:Internet dbpedia-hu:Kategória:Karakterkódolások
rdfs:label	UTF-8 (hu) UTF-8 (hu)
owl:sameAs	freebase:UTF-8
prov:wasDerivedFrom	wikipedia-hu:UTF-8?oldid=22764834&ns=0
foaf:isPrimaryTopicOf	wikipedia-hu:UTF-8
is foaf:primaryTopic of	wikipedia-hu:UTF-8