Video: Recommender Systems 2024
Pembolehubah char piawai dalam C ++ adalah lebar 1 bait lebar dan boleh mengendalikan hanya 255 aksara yang berbeza. Ini cukup banyak untuk bahasa Eropah tetapi tidak cukup besar untuk mengendalikan bahasa berasaskan simbol seperti kanji.
Beberapa piawaian telah muncul untuk memperluaskan set aksara untuk menangani permintaan bahasa-bahasa ini. UTF-8 menggunakan campuran aksara 8-, 16-, dan 32-bit untuk melaksanakan hampir setiap kanji atau hieroglyph yang boleh anda fikirkan tetapi masih tetap serasi dengan ASCII 8-bit mudah. UTF-16 menggunakan campuran aksara 16- dan 32-bit untuk mencapai set aksara yang diperluas, dan UTF-32 menggunakan 32 bit untuk semua aksara.
UTF bermaksud Format Transformasi Unicode, dari mana ia mendapat nama samaran Unicode.
Jadual menerangkan jenis watak yang berbeza yang disokong oleh C ++. Pada mulanya, C ++ cuba mendapatkan dengan jenis watak luas yang jelas, wchar_t. Jenis ini bertujuan untuk menjadi jenis watak luas yang berasal dari persekitaran program aplikasi. C ++ '11 memperkenalkan jenis tertentu untuk UTF-16 dan UTF-32.
Variabel | Contoh | Apa Ia | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
char | 'c' | ASCII atau aksara UTF-8 | wchar_t | L'c ' | Watak dalam format yang luas | char_16t | u'c' | UTF-16 aksara | char_32t | U'c ' |
UTF-16 adalah pengekodan standard untuk aplikasi Windows. Jenis wchar_t merujuk kepada UTF-16 dalam Kod:: Blok / gcc compiler.
Mana-mana jenis watak dalam jadual boleh digabungkan menjadi rentetan juga:
wchar_t * wideString = L "ini adalah rentetan lebar";