Czert – Czech BERT-like Model for Language Representation

Sido, Jakub; Pražák, Ondřej; Přibáň, Pavel; Pašek, Jan; Seják, Michal; Konopík, Miloslav

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.author	Sido, Jakub
dc.contributor.author	Pražák, Ondřej
dc.contributor.author	Přibáň, Pavel
dc.contributor.author	Pašek, Jan
dc.contributor.author	Seják, Michal
dc.contributor.author	Konopík, Miloslav
dc.date.accessioned	2022-03-21T11:00:17Z	-
dc.date.available	2022-03-21T11:00:17Z	-
dc.date.issued	2021
dc.identifier.citation	SIDO, J. PRAŽÁK, O. PŘIBÁŇ, P. PAŠEK, J. SEJÁK, M. KONOPÍK, M. Czert – Czech BERT-like Model for Language Representation. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 1326-1338. ISBN: 978-954-452-072-4 , ISSN: 1313-8502	cs
dc.identifier.isbn	978-954-452-072-4
dc.identifier.issn	1313-8502
dc.identifier.uri	2-s2.0-85123595825
dc.identifier.uri	http://hdl.handle.net/11025/47190
dc.description.abstract	Tento článek popisuje proces trénování prvních českých monolinguálních modelů pro reprezentaci jazyka založených na architekturách BERT a ALBERT. Naše modely trénujeme na více než 340 tisících vět, což je 50krát více než u vícejazyčných modelů, které obsahují česká data. Vícejazyčné modely překonáváme na 9 z 11 datových sad. Kromě toho jsme na devíti datasetech dosáhli nových state-of-the-art výsledků. Na závěr porovnáváme výsledky jednojazyčných a vícejazyčných modelů. Všechny předtrénované modely jsou volně dostupné pro další výzkum.	cs
dc.format	13 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	INCOMA, Ltd.	en
dc.relation.ispartofseries	Deep Learning for Natural Language Processing Methods and Applications	en
dc.rights	© Incoma Ltd.	en
dc.subject	BERT	cs
dc.subject	jazykový mode	cs
dc.subject	předtrénovaný model	cs
dc.subject	český jazyk	cs
dc.title	Czert – Czech BERT-like Model for Language Representation	en
dc.title.alternative	Czert – Český BERT-like model pro reprezentaci jazyka	cs
dc.type	konferenční příspěvek	cs
dc.type	ConferenceObject	en
dc.rights.access	openAccess	en
dc.type.version	publishedVersion	en
dc.description.abstract-translated	This paper describes the training process of the first Czech monolingual language representation models based on BERT and ALBERT architectures. We pre-train our models on more than 340K of sentences, which is 50 times more than multilingual models that include Czech data. We outperform the multilingual models on 9 out of 11 datasets. In addition, we establish the new state-of-the-art results on nine datasets. At the end, we discuss properties of monolingual and multilingual models based upon our results. We publish all the pre-trained and fine-tuned models freely for the research community.	en
dc.subject.translated	BERT	en
dc.subject.translated	language modeling	en
dc.subject.translated	pre-trained model	en
dc.subject.translated	Czech language	en
dc.identifier.doi	10.26615/978-954-452-072-4_149
dc.type.status	Peer-reviewed	en
dc.identifier.obd	43933618
dc.project.ID	SGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikace	cs
dc.project.ID	EF17_048/0007267/InteCom: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblast	cs
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference Papers (KIV) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Přibáň-RANLP-2021-czert.pdf	351,92 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/47190

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace