<div style="line-height:1.7;color:#000000;font-size:14px;font-family:Arial"><div style="margin:0;">Hi Adapters,</div><div style="margin:0;"><br></div><div style="margin:0;">Large-scale pre-trained language models have significantly advanced the whole NLP community.  Each of them is always tied with a tokenization tool made up of a vocabulary and a huge embedding matrix. Although subword tokenizers are the de facto standard in modern NLP, there are still pitfalls of these widely-accepted tokenizers, possibly resulting in pre-trained language models with poor generalization ability and low robustness. </div><div style="margin:0;">In this seminar, I'll introduce the limitations of vocabulary-dependent models/tokenizers and introduce a paper named "HashFormers: Towards Vocabulary-independent Pre-trained Transformers" solving these limitations to some extent while performing competitively compared to the vanilla model. </div><div style="margin:0;">Hope you can get some interesting inspirations from this topic!</div><div style="margin:0;"><pre style="width: 994.641px; word-break: break-word !important;"><div style="white-space: normal !important; word-break: break-word !important;">Time: Wed 4:00 pm</div>Venue: SEIEE 3-414</pre><pre style="width: 994.641px; word-break: break-word !important;"><div style="white-space: normal; word-break: break-word !important; font-family: Arial; margin: 0px;">Best Regards,</div><div style="white-space: normal; word-break: break-word !important; font-family: Arial; margin: 0px;">Angel</div></pre></div></div>