Attila Novák

Personal
Send me | |
About | Computational linguist, expert on computational morphology. |
EDUCATION
2012 – 2015 |
Pázmány Péter Catholic University, Budapest Roska Tamás Doctoral School of Sciences and Technology PhD program Field of research: Computational morphologies for Hungarian and other Uralic languages |
1995 – 1999 |
Eötvös Loránd University, Budapest Faculty of Arts, Theoretical Linguistics major |
1992 – 1993 | Friedrich-Schiller-Universität Jena, Germany |
1989 – 1994 |
Budapest University of Technology Faculty of Electrical Engineering and Computer Science, Computer Science major |
July – August 1989 | Choate Rosemary Hall, Wallingford CT, USA |
September 1985 – June 1989 | Táncsics Mihály Grammar School, Budapest |
PROFESSIONAL ACTIVITIES
2012 – | Researcher in the MTA-PPKE Hungarian Language Technology research group; creation of a psychologically motivated computational model of syntactic analysis for Hungarian. |
2001 – 2011 | Software developer and computational linguist at MorphoLogic; development of computational morphologies for Hungarian, German, French, Spanish, and some small Uralic languages: Komi, Umurt, Mari, Nganasan, Tundra Nenets, Mansi and Khanti; creation, conversion and quality control of dictionary databases; hybrid and statistical machine translation; creation of a knowledge portal of e administration; design and implementation of various software tools and algorithms related to natural language processing. |
1998 – 2001 | Young researcher at the Research Institute for Linguistics of the Hungarian Academy of Sciences; creation of a constraint-based formalism for computational morphology, the tools implementing it and a Spanish and a Hungarian morphological analyzer. |
1995 – 1999 | Participation in various projects for MorphoLogic and the Research Institute for Linguistics of the Hungarian Academy of Sciences: statistics-based suggestion algorithm for the spell checker of MorphoLogic; a finite-state Polish morphological database; a German computational morphology; a syntactic parser. |
1994 – | Novati Kft., founder, CEO, software engineer; development of special tools and applications in the field of language technology, and of language resources; outsourced editorial work for the publication of reference books and general and professional dictionaries. |
TEACHING EXPERIENCE
1998 – 2003 |
Eötvös Loránd University Theoretical Linguistics Program: Logic Computational linguistics and Introduction to linguistics |
RESARCH AND PROJECT PARTICIPTION
2012 – 2013 | Creation of adapted morphological databases of Dutch, Italian and Russian for on-line and pop-up dictionaries. |
2011 | Ob-Ugric languages: conceptual structures, lexicon, constructions, categories. An innovative approach to creating descriptive resources for Khanty and Mansi (08-EuroBABEL-OP-015) – creation of the electronic on-line version of Munkácsi Bernát–Kálmán Béla(1984) Wogulisch-es Wörterbuch [Mansi Dictionary] Akadémiai kiadó. Budapest. |
2010 – 2014 | Morphologically annotated historical corpus of private language use (OTKA 81189) – creation of a Middle Hungarian morphological analyzer, automatic and manual annotation tools, and a corpus query system. |
2010 | Data and document retrieval system for the archives of the Hungarian Atomic Energy Authority Language identification, stemming and indexing of Hungarian and English documents. Extension of morphological dictionaries with nuclear terminology. |
2009 – 2010 | Knowledge portal of e-administration (ÁROP-2007/1.2.3-2008-0002.) – Development of an ontology of e-administration and an automatic keyword generator for a knowledge portal. |
2009 – 2013 | Hungarian generative historical syntax (OTKA NK 78074) – creation of an Old and Middle Hungarian morphological analyzer and automatic morphosyntactic annotation of historical texts. |
2008 – 2010 | Ob-Ugric morphological analyzers and corpora (OTKA NF71707) – creation of Northern Mansi, Synya and Kazim Khanty Morphological analyzers and annotated corpora. |
2006 – 2009 | Morphological analyzer for Nganasan (OTKA K60807) – improvement end extension of the previously created Nganasan morphological analyzer, morphosyntactic annotation of Nganasan texts. |
2006 – 2009 | EuroMatrix: Statistical and hybrid machine translation between all European languages (STREP FP6-34291). |
2005 – 2008 | Permic linguistic databases (OTKA T048309) – creation of improved and extended morpholog-ical analyzers for Komi and Udmurt. |
2005 – 2007 | Interactive analysis of contents of medical texts for electronic administration of medical history (AKF GVOP-311-2004-05-0363/30) –automatic morphological and partial syntactic analysis of medical text. |
2004 – 2006 | Development and standardization of natural language processing infrastructure (KKV GVOP-2004-333) – project manager – development and enhancement of morphological analyzers for the following languages: Hungarian, German, English, Polish, French, Spanish, Romanian, Czech, Slovak, Dutch, Italian, Croatian. |
2001 – 2005 | Complex Uralic Linguistic Database (NKFP 5/135/2001) – creation of morphological analyzers for Komi, Nganasan, Tundra Nenets, Udmurt, Mari, and Mansi. |
1995 – 1998 | GRAMLEX (Copernicus Joint Research Project 621) Creation of a syntactic parser. |
PERSONAL SKILLS
Language skills |
Hungarian, English and German: fluent Italian, Spanish, French: reading |
Programming languages and formalisms | Perl, C++, JavaScript, HTML, CSS |
Publications
Automatic Tag Recommendation for News Articles. 11th International Conference on Applied Informatics (ICAI 2020). :442-451.
(1.35 MB) .
2020.

Much Ado About Nothing – Identification of Zero Copulas in Hungarian Using an NMT Model. Proceedings of the 12th Language Resources and Evaluation Conference. :4802-4810.
(207.52 KB) .
2020.

Nesze semmi, fogd meg jól!: Zéró kopulák automatikus felismerése neurális gépi fordítással. XVI. Magyar Számítógépes Nyelvészeti Konferencia. :385-398.
(280.79 KB) .
2020.

Automatikus tematikuscímke-ajánló rendszer sajtószövegekhez. XVI. Magyar Számítógépes Nyelvészeti Konferencia. :155-168.
(1.48 MB) .
2020.

CBOW-tag: a Modified CBOW Algorithm for Generating Embedding Models from Annotated Corpora. Proceedings of the 12th Language Resources and Evaluation Conference.
(337.69 KB) .
2020.

Bu-Bor-éK: grafikus címkenormalizáló eszköz. XVII. Magyar Számítógépes Nyelvészeti Konferencia.
(693.55 KB) .
2020.

Creation of a corpus with semantic role labels for Hungarian. Proceedings of the 13th Linguistic Annotation Workshop.
(273.57 KB) .
2019.

Crawling in Reverse – Lightweight Targeted Crawling of News Portals. Proceedings of the 9th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. .
2019.
Hol ugat a kutya? Örömében. Helyhatározói esetragos névszók pontosabb annotációja XV. Magyar Számítógépes Nyelvészeti Konferencia.
(482.92 KB) .
2019.

Egy magyar nyelvű kérdezőrendszer. XV. Magyar Számítógépes Nyelvészeti Konferencia.
(845.56 KB) .
2019.

Mit hozott édesapám? Döntést – Idiomatikus és félig kompozicionális magyar igei szerkezetek azonosítása párhuzamos korpuszból XV. Magyar Számítógépes Nyelvészeti Konferencia.
(515.56 KB) .
2019.

CBOW/A: módosított CBOW algoritmus annotált szövegekből készített vektortérmodellek létrehozására. XV. Magyar Számítógépes Nyelvészeti Konferencia.
(1.55 MB) .
2019.

Különböző függőségi elemzők teljesítményének vizsgálata magyar nyelven. XV. Magyar Számítógépes Nyelvészeti Konferencia.
(564.36 KB) .
2019.

Cross-Lingual Generation and Evaluation of a Wide-Coverage Lexical Semantic Resource. Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).
(274.24 KB) .
2018.

Segíthetnek-e a szóbeágyazási modellek a társadalomtudósoknak? MAGYAR TUDOMÁNY. 179:945–954.
(663.55 KB) .
2018.

A Model for High-coverage Lexical Semantic Annotation Generation. Proceedings of the Thirteenth International Symposium on Commonsense Reasoning, COMMONSENSE 2017.
(613.44 KB) .
2018.

Lemmi vagy nem lemmi. XIV. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2018.
(251.01 KB) .
2018.

Magyar szóbeágyazási modellek kézi kiértékelése. XIV. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2018.
(352.96 KB) .
2018.

E-magyar – A Digital Language Processing System. Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).
(203.47 KB) .
2018.

Szóbeágyazási modellek vizualizációjára és böngészésére szolgáló webes felület. XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017).
(840.89 KB) .
2017.

Az emMorph morfológiai elemző annotációs formalizmusa. XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017).
(529.85 KB) .
2017.

A Dologfelismerő. XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017).
(598.68 KB) .
2017.

Az e-magyar digitális nyelvfeldolgozó rendszer. XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017).
(322.76 KB) .
2017.

A New Integrated Open-source Morphological Analyzer for Hungarian. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). .
2016.
Főurak levelei, boszorkányok perei és egy újonnan épült adatbázis: a történeti magánéleti korpusz. Magyar Tudomány. 177:1297–1304. .
2016.
Új integrált magyar morfológiai elemző. XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). :78–86. .
2016.
Közeli rokonunk, az autó. XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). :27–36. .
2016.
Digitális Konzílium – egy szemészeti klinikai keresőrendszer. XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). :230–240. .
2016.
Beágyázási modellek alkalmazása lexikai kategorizációs feladatokra. XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). :3–14. .
2016.
Magyar nyelvű szövegek automatikus fonetikai átírása. XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). :134–143. .
2016.
Ékezetek automatikus helyreállítása magyar nyelvű szövegekben. XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). :49–58. .
2016.
Improving Corpus Annotation Quality Using Word Embedding Models. Polibits. 53:49–53. .
2016.
Grapheme-to-phoneme Transcription in Hungarian. International Journal of Computational Linguistics and Applications. 7:171–193. .
2016.
"Olcsó" morfológia. XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2015). :145–157. .
2015.
Automatic Diacritics Restoration for Hungarian.. EMNLP. :2286–2291. .
2015.
Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban. XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2015). :237–248. .
2015.
Restoring the Intended Structure of Hungarian Ophthalmology Documents. Proceedings of the BioNLP 2015 Workshop on Biomedical Natural Language Processing. :152–157. .
2015.
Szótövesítők összehasonlítása és alkalmazásaik. Alkalmazott Nyelvtudomány. 15:7–27. .
2015.
Making Morphologies the ''Easy'' Way. Computational Linguistics and Intelligent Text Processing: 16th International Conference, CICLing 2015, Cairo, Egypt, April 14-20, 2015, Proceedings, Part I. :127–138. .
2015.
A Humor új Fo(r)mája. X. Magyar Szám{ítógépes Nyelvészeti Konferencia. :303–308. .
2014.
A New Form of Humor – Mapping Constraint-Based Computational Morphologies to a Finite-State Representation. 9th International Conference on Language Resources and Evaluation (LREC-2014). .
2014.
PurePos 2.0 egy hibrid morfológiai egyértelműsítő rendszer. IX. Magyar Szám{ítógépes Nyelvészeti Konferencia. :373-377. .
2014.
Lessons Learned from Tagging Clinical Hungarian. International Journal of Computational Linguistics and Applications. 5 .
2014.
Rec. et exp. aut. Abbr. mnyelv. KLIN. szöv-ben – rövidítések automatikus felismerése és feloldása magyar nyelvű klinikai szövegekben. X. Magyar Szám{ítógépes Nyelvészeti Konferencia. :167–176. .
2014.
A magyar beteg. X. Magyar Szám{ítógépes Nyelvészeti Konferencia. :188–198. .
2014.
Resolving Abbreviations in Clinical Texts Without Pre-existing Structured Resources. Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing (BioTxtM 2014). .
2014.
Identifying and Clustering Relevant Terms in Clinical Records Using Unsupervised Methods. 2nd International Conference on Statistical Language and Speech Processing. .
2014.
Vocabulary Extension by Paradigm Prediction. PhD Proceedings Annual Issues of the Doctoral School. :145–148. .
2014.
Morphological annotation of Old and Middle Hungarian corpora. Proceedings of the ACL 2013 workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. :43–48. .
2013.
Detection and Expansion of Abbreviations in Hungarian Clinical Notes. MICAI 2013: 12th Mexican International Conference on Artificial Intelligence. 8265:318–328. .
2013.
Context-Aware Correction of Spelling Errors in Hungarian Medical Documents. Statistical Language and Speech Processing. :248–259. .
2013.
Purepos 2.0: a Hybrid Tool for Morphological Disambiguation. International conference Recent Advances In Natural Language Processing RANLP. :539-545. .
2013.
Hybrid Text Segmentation for Hungarian Clinical Records. Advances in Artificial Intelligence and Its Applications: 12th Mexican International Conference on Artificial Intelligence, MICAI 2013, Mexico City, Mexico, November 24-30, 2013, Proceedings, Part I. :306–317. .
2013.
Improved Hungarian Morphological Disambiguation with Tagger Combination. Text, Speech, and Dialogue. 8082:280–287. .
2013.
Combining Language-Independent Part-of-Speech Tagging Tools. 2nd Symposium on Languages, Applications and Technologies. .
2013.
More Effective Boilerplate Removal – the GoldMiner Algorithm. Polibits. 48:79–83. .
2013.
Hunglish mondattan – átrendezésalapú angol-magyar statisztikai gépifordító-rendszer. IX. Magyar Szám{ítógépes Nyelvészeti Konferencia. :71–82. .
2013.
English to Hungarian Morpheme-based Statistical Machine Translation System with Reordering Rules. Proceedings of the Second ACL 2013 Workshop on Hybrid Approaches to Machine Translation (HyTra). :42-50. .
2013.
Syntax Based Reordering in Phrase Based English-Hungarian Statistical Machine Translation. International Journal of Computational Linguistics and Applications. 4:63–78. .
2013.
HuLaPos 2.0 – Decoding morphology. MICAI 2013: 12th Mexican International Conference on Artificial Intelligence. 8265:294–305. .
2013.
The Hypercorrect Key Witness. VLlxx: Papers presented to Varga László on his 70th birthday. .
2013.
Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével. IX. Magyar Szám{ítógépes Nyelvészeti Konferencia. :148–158. .
2013.
Automatic Structuring and Correction Suggestion system for Hungarian Clinical Records. 8th {SaLTMiL} {Workshop} on {Creation} and use of basic lexical resources for less-resourced languages. :29–34. .
2012.
Automatic structuring and correction suggestion system for Hungarian clinical records. 8th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-resourced Languages. :29–34. .
2012.