- ஒருங்குறி செந்தரம் (standard) என்பது பொதுவாக ஒருங்குறி குறியேற்றத்தை குறிப்பிட்டாலும் இதில் ஒன்றிற்கு மேற்பட்ட செந்தரங்கள் இருக்கின்றன. குறியேற்றம் (encoding), தேடல் + வரிசைபடுத்தல் (Collation) ஆகியவை தனித்தனியாக பிரித்தாளப்படுகிறது.
- அப்படியென்றால் இரண்டிற்கும் சம்பந்தம் இல்லையா என்றால் இல்லை என்றுதான் சொல்லவேண்டும். இதை புரிந்துக்கொள்ள மேற்கொண்டு படியுங்கள்.
- குறியேற்றம் நிர்னயம் செய்யும்பொழுது collation'ஐயும் மனதில் வைத்துக்கொண்டுதான் செயல்படுகிறார்கள் ஆனால் எல்லா பிரச்சினைகளையும் குறியேற்றத்தாலேயே சரி செய்துவிட முடியாது.
- Collation சமாச்சாரங்களுக்காக தனியாக Unicode Collation Algorithm என்று ஒன்று இருக்கிறது. ஒருங்குறி குறியேற்றத்திற்கு பணிந்து செயல்புரியும் நிரலிகள் Collation'ஐயும் சரியாக செய்யும் என்பதற்கு எந்த அத்தாட்சியுமில்லை. இவை இரண்டும் தனித்தனி செந்தரங்கள்.
- ஒரு மொழிக்காக ஒருங்குறியில் இடம் ஒதுக்கப்பட்ட பின் ஒருங்குறி குழுமம் பொதுவாக எந்த மாற்றங்களையும் ஒத்துக்கொள்வதில்லை. அதனால் அவர்கள் முடிந்தமட்டும் புழக்கத்திலுள்ள அங்கீகரிக்கப்பட்ட செந்தரங்களையே வழிகாட்டியாக பயன்படுத்துகிறார்கள். உ-ம்: IISCI.
- உலகத்திலுள்ள எல்லா மொழிகளையும் குறியேற்றம் செய்வது அவர்கள் நோக்கமென்பதால் இப்பெரும் பனியில் சில தவறுகள், கவனக்குறைகள் ஏற்படுவது சாத்தியமே. இதனால்தான் சரியான அதிகாரத்துடன் சில மாறுதல்களை முன்வைத்தால் அதை பரிசீலிக்க ஏற்றுக்கொள்கிறார்கள்.
- ஏற்கனவே அளிக்கப்பட்ட இடத்தை அதிகரிக்கச் சொன்னால் மாற்றச் சொன்னால்தான் பொதுவாக மறுத்து விடுவார்கள். ஏனென்றால் ஒவ்வொரு மொழியையும் மொழியிலாளர்கள் ஆராய்ந்தபின்தான் இடமளிக்கிறார்கள் ஆகையால் பெருந்தவறுகள் ஏற்பட வாய்ப்புகள் கம்மி.
- ஆனால் அளிக்கப்பட்ட இடத்திற்குள் எழுத்துக்களின் வரிசை மாற்றம் அல்லது சின்னஞ்சிறு மாறுதல்கள் சொன்னால் ஏற்றுக்கொள்வதில் தடையில்லை.
- ஒருங்குறி தமிழில் எல்லா உயிர்மெய் எழுத்துக்கள் அகரத்தின் அடிப்படையில் வடிவமைக்கப் படுகின்றன. உ-ம்: கி = க + இ. இது தவறு. இதை மாற்றவேண்டும். மெய் எழுத்துக்களே அடிப்படையாக இருக்கவேண்டும். கி = க் +இ என்பதே சரி, இதில் எந்த ஐயமுமில்லை.
- இன்னும் சில எழுத்துக்களின் வரிசையும் மாற்றியமைக்க வேண்டும்
- ஆனால் இதற்காக கொடுக்கப்பட்ட இடத்தை அதிகரிக்க வேண்டிய அவசியமில்லை. இடத்தை அதிகரிக்க கோரிக்கை வைத்தால்தான் நிராகரிக்கப்படலாம். மேலே சொன்ன மாறுதல்களுக்கு தற்சமயம் உள்ள இடமே போதும்.
- இந்த மாறுதல்களை செய்தால் அடிப்படை தேடல் மற்றும் வரிசைப்படுத்தல் ஒழுங்காக வேலை செய்யும். இதற்கு பின்பும் உள்ள பிரச்சினைகளை Collation Algorithm செந்தரத்தில் மாற்றச் சொல்லலாம். அது சாத்தியமே தவிர அதுதான் சரி.
- இந்த பிரச்சினை ஏன் வந்தது? முறையாக IISCI வந்தவுடனே நாம் சரி செய்திருந்தால் நன்றாக இருந்திருக்கும். மேலும் தமிழை இந்தி போன்ற மொழிகளின் பார்வையிலிருந்து பார்ப்பதும் ஒரு காரணம்.
- முடிவாக எழுத்துக்களின் வரிசை மற்றும் மெய் எழுத்துக்களை புகுத்திவிட்டு அகரத்திற்கு ஒரு உருபை சேர்த்தாலே போதுமானது. மீதியை Collation செந்தரத்தில் பார்த்துக்கொள்ளலாம். இதுதான் துரிதமாக தற்போது இருக்கு வரையரையில் செய்ய இயலும். TUNE எல்லாம் கொஞ்சம் நடைமுறைக்கு அப்பார்பட்டது. நமக்கு பிரச்சினை சுமுகமாக சீக்கிரம் தீரவேண்டும் என்பதே குறிக்கோள். தவிர இதுதான் சமர்த்தான தீர்வாகும் TUNE அல்ல.
(நான் இங்கு சொல்லியிருக்கும் தீர்வே சரியானதாக இருக்கவேண்டிய அவசியமில்லை என்பதை அறிவேன்.)
5 comments:
யக்ஞா, தெளிவாக எழுதி இருக்கிறீர்கள். collation செந்தரமொன்று தனியாக இருப்பதைப் பார்த்தேன். குறிப்பாக அதற்கும் யூனிக்கோடு செந்தரத்திற்கும் சம்பந்தமில்லை என்று அவர்கள் குறிப்பிட்டிருந்ததையும் கண்டேன். முழுமையாக இன்னும் படிக்கவில்லை. நீங்கள் சுட்டியிருக்கும் பிற ஆவணங்களையும் படிக்க முயற்சி செய்கிறேன். TUNE அன்றி இந்தச் சிறு மாற்றத்தைச் செய்வதில் உள்ள நிறை/குறைகளைப் பார்க்க வேண்டும். இந்த மாற்றங்களை யூனிகோடு சேர்த்தியம் எளிதாகச் செய்யமுடியுமெனில் இது சரியான தீர்வளிக்குமா என்று வல்லுனர்கள் ஆய்ந்து பார்க்க வேண்டும்.
செல்வராஜ், கட்டுரைகளை படித்துவிட்டு சொல்லுங்கள். நாங்கு ஆண்டுகள் கழித்தும் திருப்பியும் அதையே செய்து கொண்டிருக்கிறோம். குறைந்த பட்சம் பொதுவில் விவாதங்கள் நடக்கின்றன. இது ஆறுதலளிக்கிறது.
யக்ஞா, Cathy Wissinkஇன் இரு கட்டுரைகளையும் படித்து விட்டு பின்னூட்டமிடலாம் என்று நினைத்தேன். கட்டுரைகள் கொஞ்சம் நீளமாகவுள்ளன :) இனிமேல்தான் படிக்க வேண்டும்.
எனக்குத் தோன்றும் சில யோசனைகள்:
- இது வரை இது பற்றி வந்த அனைத்துப் பதிவுகளையும் கட்டுரைகளையும் விவாதங்களையும் (பழைய யாஹூ குழும விவாதங்களெல்லாம் எனக்குக் கேள்விக்குறிகளாகத் தெரிகின்றன) தொகுத்து, ஒரு கூட்டுப் பதிவாக வழங்கினாலென்ன? இதனால் இதுவரை வெளிவந்த கருத்துக்களும் இனி வெளிவர இருக்கும் கருத்துக்களும் ஓரிடத்தில் காணக்கிடைக்கும்.
- TUNE பற்றி கருத்து கேட்கும் தமிழ் இணைய பல்கலைக் கழகத்திற்கும் ஒரு மின்மடல் அனுப்பி, அவர்களை இவ்வலைப்பதிவை வந்து பார்வையிடுமாறு அழைப்பு விடலாம் (for whatever it is worth).
- உண்மையாகவே ஏதாவது மாறுதல்களைச் செயல்படுத்தும் / பரிந்துரைக்கும் அதிகாரம் படைத்தவர்கள் யாரென்பது தெரியவில்லை. அவர்களின் பார்வைக்கு இவ்விவாதங்கள் வைக்கப்படுமானால், அதனால் ஏதாவது பயன் கிட்டலாம்.
கட்டுரைகளைப் படித்து விட்டு, வேறெதாவது இருந்தால் தெரிவிக்கிறேன்.
ஒரு உபரி தகவல் - wikipediaவின் unicode பக்கத்தில், ஜப்பானிய மொழி, தாய் மொழி போன்றவற்றில் பிரச்சினையிருப்பதாக கூறப்பட்டுள்ளது. இந்திய மொழிகளைப் பற்றிய குறிப்பெதுவுமே இல்லை. அதைப் படிப்பவர்களுக்கு, இந்திய மொழிகளிலும் unicodeஇல் பிரச்சினை உள்ளது என்ற தகவலே தெரியாமல் போக வாய்ப்புள்ளது. நம் பிரச்சினைகளை உரிய வகையில் highlight செய்யத் தவறியதால் அவை எப்படி இருட்டடிப்பு செய்யப் படுகின்றன என்பதையே இது காட்டுகிறது.
யக்ஞா.
தெளிவாக விளக்கியிருக்கிறீர்கள். தூக்கம் கலைந்து எழுந்தி்ருக்கும் நமக்கு தீர்வு கிடைத்தால் சரியே.
ஆனால் தமிழ் எழுத்துக்களைக் குறிக்க ஆகும் நினைவகத்தில் மாறுதல் இறாது அல்லவா. உதாரணமாக 15 ஆங்கில எழுத்துக்கள் வைக்கப்படும் இடத்தில் 5 தமிழெழுத்துக்களையே வைக்க முடிகிறது.
VoW, அந்த முதல் கட்டுரை மட்டுமாவது படிங்க. தெளிவா இந்த விஷயத்தை பத்தி அதுல சொல்லியிருக்கு. நீங்க சொல்லற மாதிரி ஒரு கூட்டுப்பதிவு போடலாம். ஒரே இடத்துல விவாதிக்கலாம். தமிழா குழுவின் வலைப்பதிவு இதுக்கு ஏத்த இடம். விவரங்கள் விரைவில். இதை கண்டிப்பா TUNE குழுக்கு சொல்லனும்.
பாரதி, வாங்க வாங்க, நானும் டெபியன் உபயோகித்து அலுத்து போயிட்டேன். மாண்ட்ரிவா தான் கலக்கல். இந்த நினைவகமெல்லாம் பிரச்சினையே இல்லை. இன்னிக்கு இருக்கற சராசரி கணினியே நமக்கு போதும். தவிர ஒரு கோப்பை ஒருங்குறி குறியேற்றத்தில் சேமித்தால் எல்லாத்துக்கும் ஒரே அளவுதான்னு நினைக்கறேன்.
Post a Comment