Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.author | Sido, Jakub | |
dc.contributor.author | Pražák, Ondřej | |
dc.contributor.author | Přibáň, Pavel | |
dc.contributor.author | Pašek, Jan | |
dc.contributor.author | Seják, Michal | |
dc.contributor.author | Konopík, Miloslav | |
dc.date.accessioned | 2022-03-21T11:00:17Z | - |
dc.date.available | 2022-03-21T11:00:17Z | - |
dc.date.issued | 2021 | |
dc.identifier.citation | SIDO, J. PRAŽÁK, O. PŘIBÁŇ, P. PAŠEK, J. SEJÁK, M. KONOPÍK, M. Czert – Czech BERT-like Model for Language Representation. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 1326-1338. ISBN: 978-954-452-072-4 , ISSN: 1313-8502 | cs |
dc.identifier.isbn | 978-954-452-072-4 | |
dc.identifier.issn | 1313-8502 | |
dc.identifier.uri | 2-s2.0-85123595825 | |
dc.identifier.uri | http://hdl.handle.net/11025/47190 | |
dc.description.abstract | Tento článek popisuje proces trénování prvních českých monolinguálních modelů pro reprezentaci jazyka založených na architekturách BERT a ALBERT. Naše modely trénujeme na více než 340 tisících vět, což je 50krát více než u vícejazyčných modelů, které obsahují česká data. Vícejazyčné modely překonáváme na 9 z 11 datových sad. Kromě toho jsme na devíti datasetech dosáhli nových state-of-the-art výsledků. Na závěr porovnáváme výsledky jednojazyčných a vícejazyčných modelů. Všechny předtrénované modely jsou volně dostupné pro další výzkum. | cs |
dc.format | 13 s. | cs |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | en |
dc.publisher | INCOMA, Ltd. | en |
dc.relation.ispartofseries | Deep Learning for Natural Language Processing Methods and Applications | en |
dc.rights | © Incoma Ltd. | en |
dc.subject | BERT | cs |
dc.subject | jazykový mode | cs |
dc.subject | předtrénovaný model | cs |
dc.subject | český jazyk | cs |
dc.title | Czert – Czech BERT-like Model for Language Representation | en |
dc.title.alternative | Czert – Český BERT-like model pro reprezentaci jazyka | cs |
dc.type | konferenční příspěvek | cs |
dc.type | ConferenceObject | en |
dc.rights.access | openAccess | en |
dc.type.version | publishedVersion | en |
dc.description.abstract-translated | This paper describes the training process of the first Czech monolingual language representation models based on BERT and ALBERT architectures. We pre-train our models on more than 340K of sentences, which is 50 times more than multilingual models that include Czech data. We outperform the multilingual models on 9 out of 11 datasets. In addition, we establish the new state-of-the-art results on nine datasets. At the end, we discuss properties of monolingual and multilingual models based upon our results. We publish all the pre-trained and fine-tuned models freely for the research community. | en |
dc.subject.translated | BERT | en |
dc.subject.translated | language modeling | en |
dc.subject.translated | pre-trained model | en |
dc.subject.translated | Czech language | en |
dc.identifier.doi | 10.26615/978-954-452-072-4_149 | |
dc.type.status | Peer-reviewed | en |
dc.identifier.obd | 43933618 | |
dc.project.ID | SGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikace | cs |
dc.project.ID | EF17_048/0007267/InteCom: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblast | cs |
Vyskytuje se v kolekcích: | Konferenční příspěvky / Conference Papers (KIV) OBD |
Soubory připojené k záznamu:
Soubor | Velikost | Formát | |
---|---|---|---|
Přibáň-RANLP-2021-czert.pdf | 351,92 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/47190
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.