February 28, 2006

ஒருங்குறி Collation = தேடுதல் + வரிசைப்படுத்தல்

இராம.கி ஐயா, VoW மற்றும் செல்வராஜ் ஆகியோர் ஒருங்குறியை பற்றி சமீபத்தில் நடத்திவரும் விவாதம் மிக முக்கியமானவை மற்றும் வரவேற்கத்தக்கவை. இது தொடர்பாக நம் புரிதலை மேம்படுத்த நாம் கவனத்தில் கொள்ளவேண்டிய மேலும் சில விஷயங்கள்:
  1. ஒருங்குறி செந்தரம் (standard) என்பது பொதுவாக ஒருங்குறி குறியேற்றத்தை குறிப்பிட்டாலும் இதில் ஒன்றிற்கு மேற்பட்ட செந்தரங்கள் இருக்கின்றன. குறியேற்றம் (encoding), தேடல் + வரிசைபடுத்தல் (Collation) ஆகியவை தனித்தனியாக பிரித்தாளப்படுகிறது.
  2. அப்படியென்றால் இரண்டிற்கும் சம்பந்தம் இல்லையா என்றால் இல்லை என்றுதான் சொல்லவேண்டும். இதை புரிந்துக்கொள்ள மேற்கொண்டு படியுங்கள்.
  3. குறியேற்றம் நிர்னயம் செய்யும்பொழுது collation'ஐயும் மனதில் வைத்துக்கொண்டுதான் செயல்படுகிறார்கள் ஆனால் எல்லா பிரச்சினைகளையும் குறியேற்றத்தாலேயே சரி செய்துவிட முடியாது.
  4. Collation சமாச்சாரங்களுக்காக தனியாக Unicode Collation Algorithm என்று ஒன்று இருக்கிறது. ஒருங்குறி குறியேற்றத்திற்கு பணிந்து செயல்புரியும் நிரலிகள் Collation'ஐயும் சரியாக செய்யும் என்பதற்கு எந்த அத்தாட்சியுமில்லை. இவை இரண்டும் தனித்தனி செந்தரங்கள்.
  5. ஒரு மொழிக்காக ஒருங்குறியில் இடம் ஒதுக்கப்பட்ட பின் ஒருங்குறி குழுமம் பொதுவாக எந்த மாற்றங்களையும் ஒத்துக்கொள்வதில்லை. அதனால் அவர்கள் முடிந்தமட்டும் புழக்கத்திலுள்ள அங்கீகரிக்கப்பட்ட செந்தரங்களையே வழிகாட்டியாக பயன்படுத்துகிறார்கள். உ-ம்: IISCI.
  6. உலகத்திலுள்ள எல்லா மொழிகளையும் குறியேற்றம் செய்வது அவர்கள் நோக்கமென்பதால் இப்பெரும் பனியில் சில தவறுகள், கவனக்குறைகள் ஏற்படுவது சாத்தியமே. இதனால்தான் சரியான அதிகாரத்துடன் சில மாறுதல்களை முன்வைத்தால் அதை பரிசீலிக்க ஏற்றுக்கொள்கிறார்கள்.
  7. ஏற்கனவே அளிக்கப்பட்ட இடத்தை அதிகரிக்கச் சொன்னால் மாற்றச் சொன்னால்தான் பொதுவாக மறுத்து விடுவார்கள். ஏனென்றால் ஒவ்வொரு மொழியையும் மொழியிலாளர்கள் ஆராய்ந்தபின்தான் இடமளிக்கிறார்கள் ஆகையால் பெருந்தவறுகள் ஏற்பட வாய்ப்புகள் கம்மி.
  8. ஆனால் அளிக்கப்பட்ட இடத்திற்குள் எழுத்துக்களின் வரிசை மாற்றம் அல்லது சின்னஞ்சிறு மாறுதல்கள் சொன்னால் ஏற்றுக்கொள்வதில் தடையில்லை.
இப்போது ஒருங்குறியில் தமிழ் பிரச்சினையை பார்க்கலாம்.
  1. ஒருங்குறி தமிழில் எல்லா உயிர்மெய் எழுத்துக்கள் அகரத்தின் அடிப்படையில் வடிவமைக்கப் படுகின்றன. உ-ம்: கி = க + இ. இது தவறு. இதை மாற்றவேண்டும். மெய் எழுத்துக்களே அடிப்படையாக இருக்கவேண்டும். கி = க் +இ என்பதே சரி, இதில் எந்த ஐயமுமில்லை.
  2. இன்னும் சில எழுத்துக்களின் வரிசையும் மாற்றியமைக்க வேண்டும்
  3. ஆனால் இதற்காக கொடுக்கப்பட்ட இடத்தை அதிகரிக்க வேண்டிய அவசியமில்லை. இடத்தை அதிகரிக்க கோரிக்கை வைத்தால்தான் நிராகரிக்கப்படலாம். மேலே சொன்ன மாறுதல்களுக்கு தற்சமயம் உள்ள இடமே போதும்.
  4. இந்த மாறுதல்களை செய்தால் அடிப்படை தேடல் மற்றும் வரிசைப்படுத்தல் ஒழுங்காக வேலை செய்யும். இதற்கு பின்பும் உள்ள பிரச்சினைகளை Collation Algorithm செந்தரத்தில் மாற்றச் சொல்லலாம். அது சாத்தியமே தவிர அதுதான் சரி.
  5. இந்த பிரச்சினை ஏன் வந்தது? முறையாக IISCI வந்தவுடனே நாம் சரி செய்திருந்தால் நன்றாக இருந்திருக்கும். மேலும் தமிழை இந்தி போன்ற மொழிகளின் பார்வையிலிருந்து பார்ப்பதும் ஒரு காரணம்.
  6. முடிவாக எழுத்துக்களின் வரிசை மற்றும் மெய் எழுத்துக்களை புகுத்திவிட்டு அகரத்திற்கு ஒரு உருபை சேர்த்தாலே போதுமானது. மீதியை Collation செந்தரத்தில் பார்த்துக்கொள்ளலாம். இதுதான் துரிதமாக தற்போது இருக்கு வரையரையில் செய்ய இயலும். TUNE எல்லாம் கொஞ்சம் நடைமுறைக்கு அப்பார்பட்டது. நமக்கு பிரச்சினை சுமுகமாக சீக்கிரம் தீரவேண்டும் என்பதே குறிக்கோள். தவிர இதுதான் சமர்த்தான தீர்வாகும் TUNE அல்ல.
இன்னும் சரியாக புரிந்துக்கொள்ள தமிழ் இணையம் 2002'ல் கேதி விஸ்ஸிங்க் (Cathy Wissink) அவர்களின் கட்டுரைகளை படிக்கவும். (கட்டுரை 1, கட்டுரை 2).

(நான் இங்கு சொல்லியிருக்கும் தீர்வே சரியானதாக இருக்கவேண்டிய அவசியமில்லை என்பதை அறிவேன்.)

February 01, 2006

உதவி தேவை: தமிழில் ஃபயர்ஃபாக்ஸ்

வணக்கம். தமிழ் கணிமைக்கு உங்கள் உதவி தேவை. இந்த ஃபயர்ஃபாக்ஸ உலாவியை தமிழில் கொண்டுவர சில ஆங்கில சரங்களை [english menu strings] தமிழில் மொழிபெயர்க்கவேண்டும் மற்றும் மொழிபெயர்க்கப்பட்ட சரங்களை சரி பார்க்கவேண்டும். சரி, இதுக்கு நீங்க என்ன செய்யனும்?
  1. இங்க போய் ஒரு பயனர் கணக்கு ஒன்னு பதிவு செய்யுங்க. [Register/Login சுட்டி மேலே வலது பக்கம் இருக்கிறது]
  2. மொழிபெயர்க்க ஏதேனும் நிரைவடையாத கோப்பை தட்டுங்க.
  3. ஒவ்வொரு சரமா எடிட் செய்யுங்க. [இந்த பக்கதுல தமிழ்ல எழுத தனியா வேற எந்த மென்பொருளும் தேவையில்லை, இதனால நீங்க எங்கிருந்து வேணும்னாலும் வேலை செய்யலாம்]
  4. மொழிபெயர்க்கப்பட்ட் சரங்களை சரி பார்க்க முடியும்னா இங்க கமெண்டு போடுங்க, அதை ரெடி பண்ணிடலாம்.
அம்புட்டுதாங்க.

உங்களால முடியுமான்னு எல்லாம் யோசிக்காதீங்க. நீங்க ஒரு சரம் மொழிபெயர்த்தால் கூட அது பேருதவியே. ஊர் கூடிதாங்க தேர் இழுக்கணும். ஒரு நாளைக்கு ஒருத்தர் ஒரு பத்து நிமிடம் செலவிட்டு பத்து சரங்கள் செப்பனிட்டாலே போதும், முடிச்சுடலாம்.
இந்த உதவிக்கு முன்கூட்டியே தமிழா குழுவின் சார்பா நன்றி தெரிவிச்சுக்கறேன்.

நன்றி!

அப்படியே இந்த முயற்சிக்கு வித்திட்ட விக்னேசுவரன், காதர், முகுந்த்க்கு ஒரு சின்ன ஜே!