தமிழில் உள்ள பொதுவெளித் தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருட்கள். கற்றது கைமண்ணளவு, எனவே எதுவும் விடுபட்டிருந்தால் பிழை திருத்தவும். மற்றதரவுகள் இருப்பினும், இவை தனிமனிதர் கணினியாளர்களுக்கு எட்டாக் கனியாகவே உள்ளது - காலம் மாறக்கூடும் - அப்போது யாரேனும் இந்தப் பட்டியலை புதுப்பித்து கிட்-இல் புதுப்பதிவு அனுப்புங்கள்.
- open-tamil - பைத்தான் - https://github.com/Ezhil-Language-Foundation/open-tamil
- TamilNLP - பைத்தான் - https://github.com/AshokR/TamilNLP
- PyTamil - https://github.com/srix/pytamil
- ThamizhiLIP: Thamizhi Linguistic Information Processing Library - https://sarves.github.io/thamizhilip/
- ஆமுதா -பைத்தான்- https://github.com/TamilClass/amuthaa
- தமிழ் parsing -Java- https://github.com/drajamanik/tamil
- தமிழ் parsing -Java- https://github.com/velsubra/Tamil
- Corpus creation tools - Ruby - https://github.com/mindaslab/tamil_corpus
- தமிழ் எண்கள்/எண் இலக்க வடிவங்களும், முறைமைகளும் - https://github.com/julienmalard/ennikkai
- Stanza - Stanford பல்கலைக்கழகத்தில் இருந்து வெளியிடப்பட்ட நிரல் தொகுப்பு - https://stanfordnlp.github.io/stanza/ (தமிழிலும் இயல்மொழி பகுப்பாய்வு வேலைகளைக்கையாள உதவுகிறது)
- அனிச்சம் Java - https://github.com/MannarAmuthan/Anicham
- அனிச்சம் பைத்தன் - https://github.com/MannarAmuthan/anicham.py
- நீச்சல்காரன் அவரது "vaaninlp" - https://pypi.org/project/VaaniNLP/ மற்றும் - https://github.com/neechalkaran/VaaniNLP
- Noun list from Kaniyam - https://github.com/KaniyamFoundation/all_tamil_nouns Word list - https://github.com/KaniyamFoundation/all_tamil_words
- Tirukkural - https://github.com/tshrinivasan/libkural
- Neechalkaran Tamil Corpus - https://github.com/neechalkaran/Tamil-corpus
- TamilNLP - https://github.com/AshokR/TamilNLP/tree/master/Resources
- Open-Tamil data sets - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
- Tamil VU dictionary - 65000+ words - https://github.com/rprabhu/TamilDictionary
- Palaniappa Bros. Dictionary - https://github.com/indic-dict/stardict-tamil
- Nigandiyam - Wiktionary - https://ta.wikisource.org/wiki/%E0%AE%B5%E0%AE%BF%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%BF%E0%AE%AE%E0%AF%82%E0%AE%B2%E0%AE%AE%E0%AF%8D:%E0%AE%A8%E0%AE%BF%E0%AE%95%E0%AE%A3%E0%AF%8D%E0%AE%9F%E0%AE%BF%E0%AE%AF%E0%AE%AE%E0%AF%8D_%E0%AE%A4%E0%AE%BF%E0%AE%9F%E0%AF%8D%E0%AE%9F%E0%AE%AE%E0%AF%8D
- தமிழ்ப்புலவர் https://github.com/ramasamy-duraipandy/tamil-pulavar
- https://github.com/abuvanth/english-tamil-dictionary-api
- தமிழ் சொற்பிழை தரவு - Annotated with Major Grammar & Spelling Errors generated by VaaniNLP (Neechalkaran) - https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus (CC-by-SA NC)
- வெண்முரசு ஜெயமோகன் அவரது புதினத்தின் சொல்லடைவு இங்கே நீச்சல்காரன் ராஜாராமன் அவரது முன்னெடுப்பால் வெளியிடப்பட்டுள்ளது - https://www.kaggle.com/datasets/neechalkaran/venmurasu -- கூடுதலாக வெண்முரசு நாவலில் மொத்தம் 1.3805 கோடி சொற்கள் உள்ளன. இயந்திரவழிக் கற்றல் முதல் மொழியியல் ஆய்வுகளுக்குப் பயன்படுத்திக் கொள்ளலாம். மேலும் விரிவான கட்டுரை https://tech.neechalkaran.com/2022/11/venmurasu-concordance.html
- An English-Tamil parallel corpus (2013) - Dr. Ramasamy Loganathan - EnTam - (They have collected English-Tamil bilingual data from some of the publicly available websites for NLP research involving Tamil.The parallel corpora cover texts from bible, cinema and news domains); Get data: http://ufal.mff.cuni.cz/~ramasamy/parallel/html/
- Tamil Dependency Treebank (TamilTB) is an attempt to develop a syntactically annotated corpora for Tamil. TamilTB contains 600 sentences enriched with manual annotation of morphology and dependency syntax in the style of Prague Dependency Treebank. Get data: http://ufal.mff.cuni.cz/~ramasamy/tamiltb/0.1/
- Amazon, Inc. Alexa MASSIVE dataset for 51 languages including Tamil - https://github.com/alexa/massive
- Aya Dataset for Tamil https://huggingface.co/datasets/CohereForAI/aya_collection (Cohere AI) with Tamil contributions by Nunnari Labs CTO Abhinaya Mahendiran
- Sketch Engine 2.6 கோடி சொற்கள் கொண்ட சொல்வங்கி https://www.sketchengine.eu/tawac-tamil-corpus/
- AU-KBC Chennai - Tamil research databases - http://www.au-kbc.org/nlp/lex_re.html, http://www.au-kbc.org/nlp/corpusrelease.html
- CRE-A இராகவ ஐய்யங்கார் வினைசொற்கள் / வினையடி - https://www.crea.in/verb-table
- EMILLE-CIIL இந்தியமொழிகளுக்கான சொல்வங்கியில் தமிழுக்கு மட்டும் 1கோடி சொற்கள் உள்ளன. http://catalog.elra.info/en-us/repository/browse/ELRA-W0037/
- Tamil New Corpus - 6500 articles - https://www.kaggle.com/disisbig/tamil-news-dataset
- Tamil Vowels Images - MNIST Compatible - https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
- Tamil Loan Word Text dataset - https://www.kaggle.com/muthua/tamil-loan-words-classification
- Tamil Wikipedia Corpus - https://www.kaggle.com/disisbig/tamil-wikipedia-articles
- Mozilla Voice - தமிழில் ஒலி->உரை மாற்றி - https://voice.mozilla.org/ta
- also shared by UTSC Digital Tamil Scholarship program at https://github.com/Digital-Tamil-Studies/common-voice-tamil
- IARPA Babel Tamil Language Open KWS Dataset - 200hrs of voiced conversations + transcripts - https://catalog.ldc.upenn.edu/LDC2017S13
- தமிழ் சொற்பிழை தரவு - Annotated with Major Grammar & Spelling Errors generated by VaaniNLP (Neechalkaran) - https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus (CC-by-SA NC)
- UTSC Digital Tamil Scholarship archive - https://github.com/Digital-Tamil-Studies/open_tamil_texts
- Handwriting letter recognition AI for Tamil - using HP dataset - https://github.com/RanchMobile/Tamil-AI
- Dravidian Code Mix, additional task datasets by Barathiraja Ashoka Chakravathi - https://github.com/bharathichezhiyan?tab=repositories
- NLP for Tamil - https://github.com/goru001/nlp-for-tamil
- IISc-MILE Tamil ASR Corpus open-sourced by IISc (Prof. A. G. Ramakrishnan MILE lab) http://openslr.org/127/
- Crowdsourced high-quality Tamil multi-speaker speech data set - http://openslr.org/65/
- Ponniyin Selvan novel - text prediction - https://github.com/malaikannan/PonniyinSelvan_Nextchapter
- Tamil Vowels Images classification - MNIST Compatible - https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
- Tamil Word2Vec embedding model - (Gaurav Aurora) - https://github.com/goru001/nlp-for-tamil
- "Indic BERT" for Dravidian Languages including Tamil - https://github.com/AI4Bharat/indic-bert
- Korkai Corpus builder - Go - https://github.com/psankar/korkai
- Tamil Wiktionary parser - Python/Qt - https://github.com/thamizha/tawiktionary-offline/
- Tamil Wiktionary parser - https://github.com/sathia27/e2t-dictionary/
- "மின் மதுரை" செயலி - https://github.com/Ezhil-Language-Foundation/MinMadurai
- Language Tool - https://github.com/languagetool-org/languagetool
- Affix file/dictionary for Tamil for Hunspell - https://github.com/thamizha/thamizha-solthiruthi
- GNU Aspell dictionary for Tamil - https://ftp.gnu.org/gnu/aspell/dict/0index.html
- Solthiruthi @ Open-Tamil
- Hunspell - https://github.com/hunspell/hunspell
- Tamilinayavaani - github.com/tshrinivasan/Tamilinaiya-Spellchecker/
- 40-சந்தி விதிகளை தமிழ் உரையில் திருத்தம் செய்ய -பைத்தான்- https://github.com/nithyadurai87/tamil-sandhi-checker
- Primary Tamil Stemmer - https://github.com/rdamodharan/tamil-stemmer
- pystemmer/Snowball - தமிழுக்கும் தழுவப்பட்டது - https://github.com/snowballstem/pystemmer
- [1] இதன் சாரம் Open-Tamil-இலும் காணலாம்.
- Open-Tamil 40,000 words English-Tamil - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
- English -> Tamil - https://github.com/sathia27/dictionary
- AU-KBC, Tamil University Thanjavur -Java- http://www.au-kbc.org/nlp/TamilWordnet.tgz
- IIT-Bombay/CIFLT, TDIL Indic/Tamil Wordnet - https://tdil-dc.in/indowordnet/ Python Package - https://github.com/riteshpanjwani/pyiwn
- TACOLA - Anna University - https://github.com/tacola-aucse/Morphological-Analyzer-For-Tamil
- FST/Tamizhi-Morph - - https://github.com/sarves/thamizhi-morph
- ML Morph - மலயாளம் சொல்வடிவ பகுப்பாய்வு - https://github.com/smc/mlmorph
- Polyglot - பைத்தான் - https://github.com/aboSamoor/polyglot
- UDD - https://github.com/UniversalDependencies/UD_Tamil-TTB
- அவலோகிதம் - Venba parser - https://github.com/virtualvinodh/avalokitam
- RDRPOSTagger - R - https://github.com/datquocnguyen/RDRPOSTagger
- RippleTagger - பைத்தான் - https://github.com/EmilStenstrom/rippletagger
- TamilNLP - பைத்தான் - https://github.com/AshokR/TamilNLP
- Bringup Tamil friendly Unix OS - https://github.com/Ezhil-Language-Foundation/padai
- eKalappai - C++ - https://github.com/thamizha/ekalappai
- Murasu Anjal - http://anjal.net/murasu-anjal-muthal-edition/
- NHM Writer - https://indiclabs.in/products/writer/
- Open-Source Tamil Fonts - https://github.com/thamizha/tamil-fonts
- Meera Tamil - https://github.com/santhoshtr/meera-tamil
- Catamaran Tamil - https://github.com/VanillaandCream/Catamaran-Tamil
- Amma - https://github.com/mooniak/amma-font
- நீச்சல்காரன் தமிழ் எழுத்துருக்கள் - http://oss.neechalkaran.com/tamilfonts/
- இராமசாமி துரைப்பாண்டி அவரது தமிழ் எழுத்துருக்கள் - https://github.com/ramasamy-duraipandy/tamil-unicode-fonts
- பேரா. இல. சுந்தரம் தமிழ் எழுத்துருக்கள் - கணியம் வழி - http://www.kaniyam.com/ila-sundaram-unicode-tamil-fonts/ http://www.kaniyam.com/download/ila-sundaram-unicode-tamil-fonts.zip
- வள்ளுவர் வள்ளலார் வட்டத்தின் புதிய தமிழ் எழுத்துருக்கள் இப்போது இணைக்கப்பட்டுள்ளன. https://oss.neechalkaran.com/tamilfonts/ காண்க : Neechalkaran/status/1769383443044220934/photo/1
- txt2ipa - பைத்தான் - https://github.com/arulalant/txt2ipa
- txt2unicode - பைத்தான் - https://github.com/arulalant/txt2unicode
- https://kaniyam.com
- https://nivedithakarmegam.wordpress.com/2019/03/31/text-preprocessing-tools-for-tamil-language/
- https://ezhillang.blog/category/tamil-nlp/
- https://goinggnu.wordpress.com
- https://indicnlp.org
- பேரா. சுபலலிதா - https://www.subalalitha.in/post/on-tamil-computing-research-experiences-part-1
- முனைவர். மதன் கார்கி - ஆராய்ச்சி அறக்கட்டளை - https://karky.in/karefo/
- முனைவர். வாசு இரங்கநாதன் - தளம் - http://learn.tamilnlp.com/
- Keras Tamil tutorial - iPython notebooks - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/main/examples/keras-payil-putthagangal
- PDF2Text using Google OCR - https://github.com/KaniyamFoundation/Pdf2Text
- Tesseract for Tamil GUI - https://github.com/Parathantl/tesseract_gui
- Tesseract based OCR API - https://github.com/neechalkaran/OCR
- OCR Tamil - Deep learning based OCR library in Python - https://github.com/gnana70/tamil_ocr
- Concatennative Synthesis on Diphones - https://github.com/sunnyglow/ThamizhPesi
- Concatennative Synthesis on Syllables - https://github.com/vasurenganathan/tamil-tts
- Dhvani - https://github.com/tshrinivasan/dhvani-tts
- Kaldi ASR - https://github.com/kaldi-asr/kaldi using IARPA BABEL dataset.
- Mozilla Voice - தமிழில் ஒலி->உரை மாற்றி - https://voice.mozilla.org/ta
- Ezhil - http://github.com/Ezhil-Language-Foundation/ezhil-lang
- CLJ-Thamil - https://github.com/echeran/clj-thamil
- தமிழ் இணைய கல்விக்கழகம் - த.இ.க. வலை - http://www.tamilvu.org/
- தமிழ் பா தேடல் - search on poetry- https://github.com/seekshiva/tamil-paa-thedal
- தமிழில் உள்ள எண்கள் எண்குறியீடுகள் பற்றிய - https://github.com/julienmalard/ennikkai/
- த.இ.க மென்பொருள் பட்டியல் http://www.tamilvu.org/coresite/html/cwsoftlist.htm -- தமிழ் இணைய கல்விக்கழகம் - த.இ.க. TSDF மென்பொருள் பட்டியல் - http://www.tamilvu.org/en/tsdf-html-cwlitsdfen-341286
- கணியம் - https://github.com/KaniyamFoundation/awesome-tamil-nlp
- கொர்க்கை சங்கர் - https://github.com/psankar/TamilFOSS
- தங்கமணி அருண் - https://github.com/thangamani-arun/Tamil-NLP-Resources
- நீச்சல்காரன் http://oss.neechalkaran.com/tamilsoftwares
- பழந்தமிழ் இலக்கியங்களில் தேட http://sangam.tamilnlp.com/mp/json/