<html><body><div style="font-family: trebuchet ms,sans-serif; font-size: 10pt; color: #000000"><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;">Dear all,</div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><br></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;">I'm going to give a talk about my work on <strong><em>Activity Inference from Audio Signal</em> </strong>tomorrow. Below is the abstract.</div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><br></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><strong>ABSTRACT</strong></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><span style="font-size: 10pt; line-height: 19px;" data-mce-style="font-size: 10pt; line-height: 19px;">Audio activity inference/context recognition means to classification among daily environments using ambient audio clips. In previous works, acoustic events, as basic units, in training clips are manually labeled. This thesis presents a novel method to recognize contexts of audio clips without manual annotation on the training dataset. We first build an audible concept vocabulary, as a definition to audio events that we are concerned, with the help of online sound taxonomies, WordNet and Probase. Short audio clips for these events are then obtained through sound search engines (SSEs), and labeled with their query words automatically. In the training stage, each context is modeled with a set of events that frequently co-occur with it in descriptive corpus. In the testing stage, Mel-frequency cepstrum coefficients (MFCC) of unknown clips are extracted, then individual sound events are detected using a network of Hidden Markov Model (HMM) classifiers with Gaussian mixture models (GMMs). Context recognition is performed by computing the exact similarity between this event set and that of each predefined context. An average classification accuracy of 56% is obtained in the recognition among 10 everyday contexts, while it reaches 72.5% on contexts that have more than 18 important sound events collected. In terms of event detection, the system is capable of recognizing almost half of the events, while the temporal positioning needs further alignment.</span></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><span style="font-size: 10pt; line-height: 19px;" data-mce-style="font-size: 10pt; line-height: 19px;"> </span></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><span style="font-size: 10pt; line-height: 19px;" data-mce-style="font-size: 10pt; line-height: 19px;">Hope you can enjoy it:)</span></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><span style="font-size: 10pt; line-height: 19px;" data-mce-style="font-size: 10pt; line-height: 19px;"> </span></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><span style="font-size: 10pt; line-height: 19px;" data-mce-style="font-size: 10pt; line-height: 19px;">Regards,</span></div><div style="background-color: #fdfdfd;" data-mce-style="background-color: #fdfdfd;"><span style="font-size: 10pt; line-height: 19px;" data-mce-style="font-size: 10pt; line-height: 19px;">Menglu</span></div><div><br></div></div></body></html>