- ஒருங்குறி செந்தரம் (standard) என்பது பொதுவாக ஒருங்குறி குறியேற்றத்தை குறிப்பிட்டாலும் இதில் ஒன்றிற்கு மேற்பட்ட செந்தரங்கள் இருக்கின்றன. குறியேற்றம் (encoding), தேடல் + வரிசைபடுத்தல் (Collation) ஆகியவை தனித்தனியாக பிரித்தாளப்படுகிறது.
- அப்படியென்றால் இரண்டிற்கும் சம்பந்தம் இல்லையா என்றால் இல்லை என்றுதான் சொல்லவேண்டும். இதை புரிந்துக்கொள்ள மேற்கொண்டு படியுங்கள்.
- குறியேற்றம் நிர்னயம் செய்யும்பொழுது collation'ஐயும் மனதில் வைத்துக்கொண்டுதான் செயல்படுகிறார்கள் ஆனால் எல்லா பிரச்சினைகளையும் குறியேற்றத்தாலேயே சரி செய்துவிட முடியாது.
- Collation சமாச்சாரங்களுக்காக தனியாக Unicode Collation Algorithm என்று ஒன்று இருக்கிறது. ஒருங்குறி குறியேற்றத்திற்கு பணிந்து செயல்புரியும் நிரலிகள் Collation'ஐயும் சரியாக செய்யும் என்பதற்கு எந்த அத்தாட்சியுமில்லை. இவை இரண்டும் தனித்தனி செந்தரங்கள்.
- ஒரு மொழிக்காக ஒருங்குறியில் இடம் ஒதுக்கப்பட்ட பின் ஒருங்குறி குழுமம் பொதுவாக எந்த மாற்றங்களையும் ஒத்துக்கொள்வதில்லை. அதனால் அவர்கள் முடிந்தமட்டும் புழக்கத்திலுள்ள அங்கீகரிக்கப்பட்ட செந்தரங்களையே வழிகாட்டியாக பயன்படுத்துகிறார்கள். உ-ம்: IISCI.
- உலகத்திலுள்ள எல்லா மொழிகளையும் குறியேற்றம் செய்வது அவர்கள் நோக்கமென்பதால் இப்பெரும் பனியில் சில தவறுகள், கவனக்குறைகள் ஏற்படுவது சாத்தியமே. இதனால்தான் சரியான அதிகாரத்துடன் சில மாறுதல்களை முன்வைத்தால் அதை பரிசீலிக்க ஏற்றுக்கொள்கிறார்கள்.
- ஏற்கனவே அளிக்கப்பட்ட இடத்தை அதிகரிக்கச் சொன்னால் மாற்றச் சொன்னால்தான் பொதுவாக மறுத்து விடுவார்கள். ஏனென்றால் ஒவ்வொரு மொழியையும் மொழியிலாளர்கள் ஆராய்ந்தபின்தான் இடமளிக்கிறார்கள் ஆகையால் பெருந்தவறுகள் ஏற்பட வாய்ப்புகள் கம்மி.
- ஆனால் அளிக்கப்பட்ட இடத்திற்குள் எழுத்துக்களின் வரிசை மாற்றம் அல்லது சின்னஞ்சிறு மாறுதல்கள் சொன்னால் ஏற்றுக்கொள்வதில் தடையில்லை.
- ஒருங்குறி தமிழில் எல்லா உயிர்மெய் எழுத்துக்கள் அகரத்தின் அடிப்படையில் வடிவமைக்கப் படுகின்றன. உ-ம்: கி = க + இ. இது தவறு. இதை மாற்றவேண்டும். மெய் எழுத்துக்களே அடிப்படையாக இருக்கவேண்டும். கி = க் +இ என்பதே சரி, இதில் எந்த ஐயமுமில்லை.
- இன்னும் சில எழுத்துக்களின் வரிசையும் மாற்றியமைக்க வேண்டும்
- ஆனால் இதற்காக கொடுக்கப்பட்ட இடத்தை அதிகரிக்க வேண்டிய அவசியமில்லை. இடத்தை அதிகரிக்க கோரிக்கை வைத்தால்தான் நிராகரிக்கப்படலாம். மேலே சொன்ன மாறுதல்களுக்கு தற்சமயம் உள்ள இடமே போதும்.
- இந்த மாறுதல்களை செய்தால் அடிப்படை தேடல் மற்றும் வரிசைப்படுத்தல் ஒழுங்காக வேலை செய்யும். இதற்கு பின்பும் உள்ள பிரச்சினைகளை Collation Algorithm செந்தரத்தில் மாற்றச் சொல்லலாம். அது சாத்தியமே தவிர அதுதான் சரி.
- இந்த பிரச்சினை ஏன் வந்தது? முறையாக IISCI வந்தவுடனே நாம் சரி செய்திருந்தால் நன்றாக இருந்திருக்கும். மேலும் தமிழை இந்தி போன்ற மொழிகளின் பார்வையிலிருந்து பார்ப்பதும் ஒரு காரணம்.
- முடிவாக எழுத்துக்களின் வரிசை மற்றும் மெய் எழுத்துக்களை புகுத்திவிட்டு அகரத்திற்கு ஒரு உருபை சேர்த்தாலே போதுமானது. மீதியை Collation செந்தரத்தில் பார்த்துக்கொள்ளலாம். இதுதான் துரிதமாக தற்போது இருக்கு வரையரையில் செய்ய இயலும். TUNE எல்லாம் கொஞ்சம் நடைமுறைக்கு அப்பார்பட்டது. நமக்கு பிரச்சினை சுமுகமாக சீக்கிரம் தீரவேண்டும் என்பதே குறிக்கோள். தவிர இதுதான் சமர்த்தான தீர்வாகும் TUNE அல்ல.
(நான் இங்கு சொல்லியிருக்கும் தீர்வே சரியானதாக இருக்கவேண்டிய அவசியமில்லை என்பதை அறிவேன்.)