Olá! Vou postar aqui algumas dicas e referências da sigla MPEG, e dizer para você que vê por ai, anúncios de aparelhos "Smartphone" que são mostrados nessas lojas importadoras, e dizem ser MP15 - MP20, isso não existe, é mentira!!!!
MPEG
O Moving Picture Experts Group (MPEG) — em português Grupo de Especialistas em Imagens com Movimento — foi formado pela ISO para definir padrões para a compressão e transmissão de áudio e vídeo. Sua primeira reunião ocorreu em Maio de 1988 em Ottawa, Canadá. No final de 2005, o MPEG evoluiu para incluir aproximadamente 350 membros oriundos de várias indústrias, universidades e instituições de pesquisa.
A designação oficial do MPEG está no ISO/IEC JTC1/SC29 WG11 - Coding of moving pictures and audio (Codificação de vídeos e áudio).
Histórico
Na década de 80 ficou claro a necessidade de aliar imagem com tecnologia digital. Nesse sentido, em 1988 ISO esquematizou o MPEG (Moving Picture Experts Group), para desenvolver padrões para o vídeo digital.Foram definidos três itens a serem desenvolvidos:
- vídeo e áudio associados a uma taxa de 1.5 Mbps (mais tarde chamado de MPEG-1);
- imagens em movimento e áudio associados a uma taxa de 10 Mbps (mais tarde chamado de MPEG-2);
- imagens em movimento e áudio associados a uma taxa de 60 Mbps (mais tarde reduzido para 40 Mbps e então cancelado).
MPEG 1 era orientado como imagem digital armazenada em Mídia de armazenagem digital (DSM - Digital Storage Media).
MPEG-2 foi orientado como broadcast. MPEG-3 para televisão de alta-definição HDTV (high definition television) que em portugûes = Televisão digital de alta definição.
Enquanto os padrões se desenvolviam ficou claro que as técnicas empregadas nos padrões poderiam ser usados em qualquer bitrate (quantidade de bits necessários para codificar um segundo de informação, seja esta vídeo, áudio ou ambos).
Assim o título dos que incluíam a taxa de transmissão, foram alterados para MPEG-1 e MPEG-2 e ficou claro que MPEG-2 poderia satisfazer as necessidades do HDTV, assim, o MPEG-3 foi descartado.
O vídeo, áudio, ou qualquer outra informação para um serviço codificado em MPEG, deve ser multiplexado num único fluxo de bits. Essa é a principal tarefa do MPEG-2 Systems.
Quando o multiplexador está recebendo um fluxo de bits de vídeo e áudio comprimidos, como eles devem ser multiplexados para que o decodificador possa obtê-los sincronizados? Uma outra tarefa do sistema é fornecer meios para essa sincronização.
Apesar de que um fluxo MPEG representa um fluxo constante de bits, os bits precisam ser organizados em grupos (pacotes) para que erros de bit não se propaguem além das fronteiras de um único pacote. Geralmente, quanto maior o pacote, mais suscetível ele é aos erros de bit. Por outro lado, agrupando os bits em pacotes cria um maior tráfego para acomodar os cabeçalhos dos pacotes. Geralmente quanto menores os pacotes, maior o tráfego. Assim, existe um tradeoff entre escolher o tamanho do pacote e sua resiliência e eficiência.
Pode-se considerar portanto que formar pacotes é uma terceira função para os MPEG Systems.
Na maioria dos casos, decodificadores necessitam de Informações Específicas do Programa (PSI - Program Specific Information) para decodificar o os dados que chegam.
Fornecer estas PSIs é a quarta tarefa do MPEG Systems. Um MPEG Systems deve:
- Multiplexar fluxos de bits individuais num único fluxo de bits.
- Prover maneiras para sincronizar os fluxos de bits que compôem um serviço de áudio e/ou vídeo.
- Empacota os bits em grupos.
- Provê informações específicas chamadas PSI.
Nos MPEG-2 Systems, um programa é definido como o conjunto de Fluxos Elementares significativos, como áudio e vídeo, que têm a mesma base de tempo.
Existem diferentes formas de se detectar movimento de objetos numa sequência de imagens. O padrão MPEG adota algoritmos de MEC baseados em casamento de blocos. Este algoritmo consiste na procura de um bloco de tamanho fixo (16x16 pixels no padrão MPEG) de um quadro em uma janela de busca em um quadro seguinte (ou anterior). Esta janela pode ser de tamanho variável mas o tamanho usual é de 30x30 pixels [BK97].
Um arquivo MPEG é um arquivo digital contendo vídeo e áudio digitais codificados seguindo determinados padrões de compressão e armazenados em um dado formato específico.
O comitê ISO especifica separadamente o tratamento de áudio e de vídeo, permitindo streams sem áudio, por exemplo.
Um filme é uma sequência de blocos. Cada bloco do filme contém seções individuais para o vídeo e para o áudio. A sincronização entre o vídeo e o áudio é feita através de marcadores de tempo que são afixados durante a codificação nos identificadores de blocos.
Compressão MPEG
O padrão MPEG especifica 3 tipos de quadros comprimidos no arquivo de saída. Nos quadros I (Intraframe) somente se aplicam algoritmos de redução de redundância espacial.
Nos quadros P (Predicted) e B (Bidirectionally Predicted) também se aplicam algoritmos de redução de redundância temporal. No caso dos quadros B a predição de movimento é bidirecional, ou seja, é feita com quadros no passado e no futuro em relação ao quadro sendo codificado.
Os quadros apresentam diferentes taxas de compressão, sendo que os quadros B apresentam a maior taxa, seguidos dos P e dos I. Isto se deve ao fato de que nos quadros I eliminamos apenas a redundância espacial. Quanto maior a compressão maiores as perdas de qualidade sofridas nos quadros, por isso há a necessidade de intercalar quadros I de tempos em tempos para permitir a “restauração” da qualidade do sinal e também acesso aleatório aos quadros do filme.
O padrão publicado pela ISO especifica o formato final do arquivo comprimido, deixando margem para que diferentes abordagens possam ser utilizadas, com diferentes compromissos entre compressão e complexidade computacional. Além disso, também fazem parte do padrão:
- Uso da Transformada Discreta do Cosseno (DCT), seguida de Quantização e Run Length Encoding [Hel96] (RLE) para redução da redundância espacial de cada quadro do filme;
- Uso de Motion Estimation e Motion Compensation (MEC) preditiva e interpolativa para redução de redundância temporal entre quadros e
- Uso de Codificação de Huffman [Huf52] ao final do processo, gerando a compressão efetiva.
A DCT faz uma transformação na imagem, mudando o domínio de representação da mesma. Este processo não introduz perdas de qualidade na imagem, sua utilização se dá porque ela permite uma representação mais compacta da imagem, facilitando a compressão.
A metodologia de compressão do MPEG é considerada assimétrica, pois o codificador é mais complexo que o decodificador.
MP3
O MP3 (MPEG-1/2 Audio Layer 3) foi um dos primeiros tipos de compressão de áudio com perdas quase imperceptíveis ao ouvido humano. A sua taxa de compressão é medida em kbps (quilobits por segundo), sendo 128 kbps a qualidade padrão, na qual a redução do tamanho do arquivo é de cerca de 90%, ou seja, o tamanho do arquivo passa a ser 1/10 do tamanho original.
A qualidade pode chegar a até 320 kbps (cerca de 2,3 MB/min. de áudio), a qualidade máxima, na qual a redução do tamanho do arquivo é de cerca de 75%, ou seja, o tamanho do arquivo passa a ser cerca de 1/4 do original. Há também outros níveis de qualidade intermediários como 192 kbps, 256 kbps, cuja escolha depende da relação custo-benefício desejada, onde o tamanho do arquivo pode ser reduzido em detrimento da qualidade/fidelidade do som.
O método de compressão com perdas empregado na compressão do MP3 consiste em retirar do áudio tudo aquilo que o ouvido humano normalmente não conseguiria perceber, devido a fenômenos de mascaramento de sons e de limitações da audição humana (embora pessoas com ouvido absoluto possam perceber tais perdas). O tamanho dos arquivos em MP3 será maior tanto quanto for maior a sua duração.
Para efeito de exemplo, consideremos uma música com 5 minutos de duração. Para armazená-la a uma taxa de 320 kbps, será necessário um espaço de 2,3 MB/min X 5 min. = 11,5 MB. A qualidade padrão, de 128 kbps, necessita de 0,92 MB/min. de áudio para ser armazenado. Um CD-R comum pode armazenar até mais de 12 horas de áudio em MP3 de 128 kbps.
As taxas de compressão alcançadas pelo MP3 chegam a até 12 vezes, dependendo da qualidade desejada. Para fazer isso o MP3 utiliza-se, além das técnicas habituais de compressão, de estudos de psicoacústica, sendo que estes permitem aproveitar-se das limitações e imperfeições da audição humana.
A utilização dos limites da audição humana baseia-se em três princípios básicos:
- Faixa de frequência audível dos seres humanos;
- Limiar de audição na faixa de frequência audível;
- Mascaramento em frequência e mascaramento temporal.
- Faixa de frequência audível humana: O ouvido humano, devido às suas limitações físicas, é capaz de detectar sons em uma faixa de frequência que varia de 20 Hz a 20 KHz, sendo que estes valores podem variar de indivíduo para indivíduo e também com a idade (com o envelhecimento perdemos a capacidade de ouvir frequências mais altas). Desta forma, não faz sentido armazenar dados referentes a sons fora desta faixa de frequência, pois ao serem reproduzidos, os mesmos não serão percebidos por um ser humano. Esta é a primeira limitação da audição humana do qual o sistema MP3 faz uso para alcançar altas taxas de compressão. De acordo com o Teorema de Nyquist, para garantir a reprodução de um sinal, temos de amostrá-lo pelo menos a duas vezes sua frequência máxima. Ou seja, neste caso, como a frequência máxima de interesse é 20 KHz, basta amostrar a 40 KHz. Utilizam-se 44.100 Hz como taxa de amostragem, pois levam-se em consideração 10% de tolerância e busca-se um valor produto dos quatro primeiros números primos. (Obs. (2x3x5x7)^2 = 44100). Desta forma, esta taxa de amostragem funciona como um filtro passa-baixas, que remove todos os componentes de frequência fora da faixa de interesse, neste caso, acima de 20 Khz.
- Limiar de audição na faixa de frequência audível: Outro fator utilizado pela codificação MP3 é a curva de percepção da audição humana dentro da faixa de frequências audíveis, ou limiar de audição. Apesar da faixa de audição humana variar entre 20 Hz e 20 KHz, a sensibilidade para sons dentro desta faixa não é uniforme. Ou seja, a percepção da intensidade de um som varia com a frequência em que este se encontra. Desta forma, o MP3 utiliza-se desta propriedade para obter compressão em arquivos de áudios. Esta abordagem é bastante intuitiva, sendo que o que se faz é descartar amostras que se encontrem abaixo deste limiar.
- Mascaramento em frequência e mascaramento temporal: Por fim, uma última propriedade da audição humana ainda é utilizada pelo método é o chamado mascaramento auditivo, ou “audiabilidade diminuída de um som devido à presença de outro”, podendo este ser em frequência ou no tempo. O mascaramento em frequência ocorre quando um som que normalmente poderia ser ouvido é mascarado por outro, de maior intensidade, que encontra-se em uma frequência próxima. Ou seja, o limiar de audição é modificado (aumentado) na região próxima à frequência do som que causa o ocorrência do mascaramento, sendo que isto se deve à limitação da percepção de frequências do ouvido humano. O mascaramento em frequência depende da frequência em que o sinal se encontra, podendo variar de 100Hz a 4 KHz.
Em função deste comportamento, o que o método de compressão do MP3 faz é identificar casos de mascaramento em frequência e descartar sinais que não serão audíveis devido a este fenômeno. Além do mascaramento em frequência, temos ainda o mascaramento no tempo, sendo que este ocorre quando um som forte é precedido por um mais fraco que encontra-se em uma frequência próxima à do primeiro.
Se o intervalo de tempo entre os dois for suficientemente pequeno, este som mais fraco não será percebido pela audição humana. Se um som é mascarado após um som mais forte, temos o chamado pós-mascaramento. No caso de um som ser mascarado antes do som mais forte, temos o que chamamos de pré-mascaramento.
O pré-mascaramento existe só por um curto momento, cerca de 20ms, enquanto que o pós-mascaramento tem efeito por até 200ms. O método de compressão do MP3 utiliza-se portanto deste fenômeno, identificando casos onde o mesmo ocorre e descartando sons que seriam mascarados, o que permite reduzir a informação de áudio consideravelmente sem mudança audível.
A Thomson Consumer Electronics controla o licenciamento da patente do MPEG-1/2 Layer 3 nos poucos países que reconhecem patentes de software, tais como Estados Unidos e Japão.
Em setembro de 1998, o Instituto Fraunhofer enviou um comunicado a diversos desenvolvedores de programas MP3, exigindo cobrança de royalties por essa patente.
O comunicado informava que o licenciamento era necessário para "distribuir e/ou vender decodificadores e/ou codificadores", e que os produtos não licenciados infringiam os "direitos sobre a patente do Instituto Fraunhofer e da Thomson. Para produzir, vender e/ou distribuir produtos que se utilizem do padrão MPEG-1/2 Audio Layer 3 e, portanto, de suas respectivas patentes, é necessário obter uma licença."
Tal iniciativa revelou a necessidade de promover formatos realmente livres, como o padrão ogg vorbis.
De notar que passados 20 anos da existência do MPEG-1, e consequentemente do MP3, a licença passará a ser livre, tornando-se este codificador propriedade da humanidade.
Fonte: Wikipédia,
O artigo é longo, mas esclarece muito em relação a esse formato tão popular hoje em dia.